同样,我不是指char-for-char等同的(这很简单),但是足够强大,可以忽略页面上的当前日期/时间等.
例如,去Yahoo! News文章加载页面,在另一个浏览器中10分钟后打开相同的页面. baring重写,这些页面将有一些差异(时间戳,可能的事情,如广告,如相关的故事),但一个人可以看看这两个,并说他们是一样的.
注意我并不想修复(或依赖)URL归一化.即,找出foo.HTML& foo.HTML?bar = bang是一样的
解决方法 这听起来像是通过强大的方法来衡量两页的相似性.鉴于页面的结构不会改变太多,我们可以减少测试页面上的文本是否大致相同的问题.当然,这个the problems alluded to by nickf关于摄影师页面的方法仍然存在,但是如果你主要关心雅虎的消息或者这样的话就可以了.
要与页面进行比较,您可以使用称为“字符串内核”的机器学习方法.这是paper年初,最近一套slides的R包和video lecture.
非常粗略地说,一个字符串内核会查找有多少单词,一对单词,三个单词等两个文档有共同之处.如果A和B是两个文件,k是一个字符串内核,那么k(A,B)的值越高,两个文档就越相似.
如果您设置了一个阈值t,并且只说两个文档对于k(A,B)>相同.你应该有一个相当好的方式做你想要的.当然,您必须调整阈值以获得应用程序的最佳结果.
总结以上是内存溢出为你收集整理的算法 – 如何确定两个网页是否相同?全部内容,希望文章能够帮你解决算法 – 如何确定两个网页是否相同?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)