有些人在拿到新品标过后没几天,就没有了,这是为什么?其实这里面有更多深层原因,今天我就把这个淘宝如何识别相似图片原理给各位讲讲。
淘宝识别相似图片原理解析
新品上架后,如果能拿到新品标和避免合并同款,将对你的宝贝权重提升有很大帮助。
对于淘宝,你去搜索时,会有找同款和找相似功能,如图:
它们实现的原理是如何?
首先大家要明白,搜索引擎有个算法叫做“信息指纹算法”,这个算法的作用就是对每张图片生成一个"信息指纹"(fingerprint)字符串,然后比较不同图片的指纹,结果越接近,就说明图片越相似。
最简单来讲如何比较两张图像是否相似,就是重叠比较。所谓重叠比较就是将两张图片叠加起来,然后看他们有多少是相似的。重叠在实现上最简单的做法是逐像素进行比较,之后我们就可以知道这两张图到底有多少是不一样的。逐点比较需要计算图像中的每个点,那么就可以通过首先将图像划分成很多小的单元格然后比较两个图像子单元格差别是否大就可以知道图像差异是否大了。但是逐点比较是基于两张图像在位置上必须是对齐的,而其一旦在位置或者形状大小上有差异,逐点比较必然会失败。
以此来看如何实现两张图像的比较我们必须找到图像中有共性的部分,它们共性就是我们所说的特征。特征是一些能反应图像特点的量,如果这些量对上了,我们便可以猜测图像可能是相似的。一些图像当中常用的特征是图像有颜色信息,比如都是红色图像才有可能相似;如果一个红一个绿图像肯定相差十万八千里了。此外图像当中可以利用的特征还有材质纹理信息,特征点信息。比如两张图像都有类似布料图案的信息(如豹纹)那么我们便能够把他们找出来。所谓的特征点信息是图像当中有代表性比较特殊的点,这些点在尺度上和局部分布信息上都有其特别性,如果两张图像有相似的显著特征点,并且相似的局部点数量非常之大,那么便可以推断图像是相类似的。