迪士尼乐园里面有什么:快速查找重复图

来源:百度文库 编辑:九乡新闻网 时间:2024/04/29 10:22:14
一、问题的提出

    每个人的计算机里的图片越来越多。有的是自己拍摄的数码照片;有的是从不同网站下载的酷图、靓图;有的是自己的设计的作品;站长呢,可能会有数十万网友提交的图片。这些图片(包括图标)由于来源不同难免有重复的。这里所指的“重复”是指图片内容重复(或没拍好的照片),而图片文件格式、像素大小、长宽比例、局部内容(加了字幕或边框)可能都不相同。另外“图片重复”并不一定是两两相同,可能是3张、5张图片内容都相同。如何搜索出这些重复的图片呢?

http://www.keeptrue.com.cn/images/xt002.jpg
[“重复”的图片]

二、问题的解决

    图片对对碰的工作原理是:首先把指定目录所有图片、图标文件进行抽样装进内存,这是个比较耗时的过程,取决于图片文件的多少和每个文件的大小、磁盘速度等。由于每个文件提取的样本数据不大,所以抽样数据占用内存并不大。第二步进行相似度的比较,这个阶段虽然是个“全循环”的过程但是很快。几秒钟就能显示匹配结果。

    由于图片对对碰是对图像的像素进行抽样,所以与文件格式无关,windows系统中常用图片格式(gif,jpg,bmp,ico)都能相互比较。图片对对碰是对图像中部“主区”进行抽样比较,所以象字幕、边框等“差异像素”可能不会被抽到,即使抽到可能也会在可以设置的“匹配率”允许范围内。图片对对碰进行比较时还允许抽样像素存在一定的色差,专门对付调整了亮度、对比度的图片。自然“重复图片”会被图片对对碰一网打尽。

三、尚未解决的问题

    1.由于图片对对碰抽样数据是有限的,所以一些不相干的图片也会被当作相同的图片挑出来。这种情况常会出现在背景色相近的、主体内容较少的图片上。这个可以通过增加抽样像素的数量,有所改善。

http://www.keeptrue.com.cn/images/bt001.jpg
[错误匹配的图片]

    2.如果一个图片的内容是另一个图片的一部分,图片对对碰目前还没有能力匹配出来。就算将来能够匹配出来可能也会相当耗时,必捷诺还需要一段时间进行研究。

http://www.keeptrue.com.cn/images/bt002.jpg
[目前无法匹配的图片]

四、软件使用方法

    下面以演示版为例介绍一下图片对对碰软件的使用方法。由于图片对对碰是用微软的.Net技术开发的,所以需要.NetFramework支持,这一点就不多说了。

    1.双击图片对对碰的程序,出现下面界面,

http://www.keeptrue.com.cn/images/0001.jpg

    单击“演示”进入主界面

http://www.keeptrue.com.cn/images/0002.jpg

    从下拉框选择“浏览”选择包含图片的路径,设定“匹配精度”默认是“中”,然后单击“对对碰”按钮,等待一会儿,就会出现结果

http://www.keeptrue.com.cn/images/0003.jpg

    如果没有匹配结果可以降低匹配精度,再点击“对对碰”按钮。也可能您真的没有相同、相似的图片 :)

五、软件优化

    图片对对碰抽样是个费时过程,必捷诺已经做了一些优化。在不改变搜索路径的前提下,改变匹配精度,图片对对碰不会重复抽样,以节约时间。将来必捷诺会在对对碰的企业版使用数据库,把抽样结果储存在数据库,以对付“大量而频繁”的应用。

六、应用前景

    1.短期内可以实现的应用是,把图片对对碰算法加入图片网站,当用户上传图片时进行匹配,防止用户过度提交重复的图片。提升图片网站的服务质量。

    2.必捷诺计划使用图片对对碰的算法,开发一套在互联网上应用的搜索引擎。用户提交一个图片,对对碰网络版从Internet搜索出相同或相似图片给您。比如您有一张低像素图片,想从网上找高像素图片;比如您有一张加了字幕的图片,想找到没加字幕的“原版”图片等等,就用得着这个了。
转帖出处:www.keeptrue.com.cn