用PHP去除重复图片文件

网络整理 - 08-05

因为整理图标, 所以需要去除重复图片的功能. 通过md5来判断是否重复. 最开始, 我用md5sum工具求md5, 然后再用PHP读取结果去重. 后来一想, 为什么不完全用PHP来做呢? 可以节省大量进程开销. 简单几行代码, 就实现了这个功能.

文件数: 80510, 大小: 452,496,873 字节

只查找不删除的速度:
第一次耗时: 122s
第二次耗时: 44s
第三次耗时: 44s

在查找多次之后, 立即查找并删除的速度:
耗时: 83秒, 删除了54406个文件

<?php
exec("find . -type f", $lines);

$arr = array();
$del = array();

$n = 0;
foreach($lines as $line){
 $line = trim($line);
 if(!$line){
  continue;
 }
 $n ++;
 $md5 = md5_file($line);

 if(isset($arr[$md5])){
  $del[] = $line;
  //echo "$n del $line\n";
  unlink("{$line}");
 }else{
  $arr[$md5] = 1;
 }
}

echo "del " . count($del) . " files\n";
//echo join("\n", $del);