MD5 是文件指纹
MD5 可以理解为文件层面的编号。只要文件内容有一点变化,MD5 就会变。但平台判断重复图片时,不一定只看 MD5。
像素指纹更接近画面本身
像素指纹关注的是图片画面内容,例如颜色分布、边缘结构、纹理细节和主体位置。两张图片即使 MD5 不同,只要画面高度相似,仍然可能被算法判断为重复素材。
元数据也会参与识别
图片里可能包含拍摄设备、时间、软件信息等元数据。清理或重写元数据可以减少重复特征,但它只是其中一步。
更稳的处理方式
有效图片去重通常是组合处理:尺寸微调、像素扰动、色彩微调、元数据清理和必要的前景遮挡。这样既保持肉眼观感,又增加底层差异。