批量比较差异HTML的工具

批量比较差异HTML的工具,第1张

概述我从服务器上抓取了很多 HTML文件(10,000和GB值)并且我想检查以确保服务器在经过一些修改后产生相同的结果但忽略了无关紧要的各种差异,例如:空格,缺少换行符,时间戳,某些数字的小变化等. 有谁知道这样做的工具?我真的不想做比我更多的过滤. (哦,它需要在linux下运行) 您可以考虑使用克隆检测器,例如我们的 CloneDR.此工具解析大量计算机程序(HTML是特殊情况)文件,构建表示每个 我从服务器上抓取了很多 HTML文件(10,000和GB值)并且我想检查以确保服务器在经过一些修改后产生相同的结果但忽略了无关紧要的各种差异,例如:空格,缺少换行符,时间戳,某些数字的小变化等.

有谁知道这样做的工具?我真的不想做比我更多的过滤.

(哦,它需要在linux下运行)

解决方法 您可以考虑使用克隆检测器,例如我们的 CloneDR.此工具解析大量计算机程序(HTML是特殊情况)文件,构建表示每个文件的基本结构的抽象语法树,并比较程序的相似性.
因为它正在比较基本的程序结构,所以它忽略了诸如注释和空格之类的不必要的差异,并且确定两个代码段是相同的,或者可以通过替换其他代码块来从另一个代码段获得.后者允许识别以各种方式修改的代码.您可以在网站上看到克隆检测的示例在各种计算机语言上运行.

在您的情况下,您要查找的是系统A中的文件,这些文件基本上是系统B中文件的克隆(精确或接近未命中).作为一般规则,如果文件a是文件b的变体(例如,一些更改)CloneDr会将其报告为克隆并显示确切的差异.

在20,000个文件的范围内,我可以看到你想要一个工具的原因,我可以看到为什么你想要近乎未命中的匹配而不是完全匹配.

不在linux下运行,但我认为你的问题很难解决,所以这不是你正在优化的.

总结

以上是内存溢出为你收集整理的批量比较/差异HTML的工具全部内容,希望文章能够帮你解决批量比较/差异HTML的工具所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/1053493.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存