算法 – 如何确定两个网页是否相同?

算法 – 如何确定两个网页是否相同?,第1张

概述有什么技术有助于检测网页是否与另一个网页相同? 同样,我不是指char-for-char等同的(这很简单),但是足够强大,可以忽略页面上的当前日期/时间等. 例如,去Yahoo! News文章加载页面,在另一个浏览器中10分钟后打开相同的页面. Baring重写,这些页面将有一些差异(时间戳,可能的事情,如广告,可能的事情,如相关的故事),但一个人可以看看这两个,并说他们是一样的. 注意我并不想修 有什么技术有助于检测网页是否与另一个网页相同?

同样,我不是指char-for-char等同的(这很简单),但是足够强大,可以忽略页面上的当前日期/时间等.

例如,去Yahoo! News文章加载页面,在另一个浏览器中10分钟后打开相同的页面. baring重写,这些页面将有一些差异(时间戳,可能的事情,如广告,如相关的故事),但一个人可以看看这两个,并说他们是一样的.

注意我并不想修复(或依赖)URL归一化.即,找出foo.HTML& foo.HTML?bar = bang是一样的

解决方法 这听起来像是通过强大的方法来衡量两页的相似性.

鉴于页面的结构不会改变太多,我们可以减少测试页面上的文本是否大致相同的问题.当然,这个the problems alluded to by nickf关于摄影师页面的方法仍然存在,但是如果你主要关心雅虎的消息或者这样的话就可以了.

要与页面进行比较,您可以使用称为“字符串内核”的机器学习方法.这是paper年初,最近一套slides的R包和video lecture.

非常粗略地说,一个字符串内核会查找有多少单词,一对单词,三个单词等两个文档有共同之处.如果A和B是两个文件,k是一个字符串内核,那么k(A,B)的值越高,两个文档就越相似.

如果您设置了一个阈值t,并且只说两个文档对于k(A,B)>相同.你应该有一个相当好的方式做你想要的.当然,您必须调整阈值以获得应用程序的最佳结果.

总结

以上是内存溢出为你收集整理的算法 – 如何确定两个网页是否相同?全部内容,希望文章能够帮你解决算法 – 如何确定两个网页是否相同?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1132206.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-30
下一篇 2022-05-30

发表评论

登录后才能评论

评论列表(0条)

保存