这种方法可以精确测量,但是算法复杂度太高,测量耗时。根据一个网页中一些重要信息的签名,然后比较两个网页的签名来衡量相似度,这种方法非常简单高效,处理速度也比较快,比较适合百度搜索这种海量数据的应用领域。
1、网站内容重复的判断
a、获取几个网页;
b.分别获取网页的网页文本;
c.从网页文本中获取一个或多个句子,并根据该一个或多个句子计算网页文本句子签名;
d.根据网页句子签名对多个网页进行聚类;
e、对于每一类网页,计算网页的附加签名;
f.根据附加签名判断每个类别下的网页是否重复。
本发明的网页重复判断系统软件和判断方式根据包含网页文本的句子签名中的多级签名,合理快速地判断网页是否重复。
页面基础设施
获取文本
a、分层网页;
b.对分层后的网页进行分块过滤,快速获得包含网页文本的内容;
c.从内容块中获取网页的文本。
文本中的子句
a.在网页正文中制作子句;
在这个过程中,可以用分号、句号、感叹号等表示句子完成的符号在网页的正文中制作从句。此外,我们还可以根据文本的视觉效果信息内容在网页的文本上制作子句。
b.对子句后的网页文本进行过度考虑和转换;
在这个过程中,首先考虑句子中的电子信息;版权等不能重复判断网页关键效果的信息内容。然后对句子进行转换,例如全角/半角转换或繁简转换,使转换后的句子文件格式统一。
c.从网页文本中获取经过考虑和转换后的最多一个或几个句子;
在这个过程中,在考虑转换后的网页文本后,我们可以得到最多的一个句子或保留的连续句子总数的组成。比如某个网页案例,经过考虑和转换,段落是最多的,远远超过其他句子。因此,可以选择这一段作为网页正文句子,也可以选择最连续的句子作为网页正文句子。
d.对一个或多个句子进行哈希签名计算,得到网页文本的句子签名。
Simhash优化算法是通过比较每个网页的附加签名是否相同或相似来判断网页是否重复。整体来看,在对比simhash签名计算出的网页文本签名时,与网页文本签名相比的十位数差值较低,说明网页重复的概率较高。在比较其他附加签名时,如果附加签名相同,则表明该网页在该级别重复。
摘要:
1.两个网页的真实标题签名是相同的。
2.我所在行业制作的两个网页的内容签名是一样的。
3.两页的页体签名不一样,十位数小于6。
4.两个网页的签名相同,url文件名也相同。
5.评估块签名中有三个签名,资源签名,logo标题签名,简介签名,url文件名签名。
附加信息内容:全站源代码判断反复规范:
根据两组网页的比较,可以得到真实和重复URL的组合。一般来说,如果这个真重复url组合中的网页总数/所有集中网页总数超过30%,则认为所有网页都是真重复,否则就是假重复。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)