有谁知道这样做的工具?我真的不想做比我更多的过滤.
(哦,它需要在linux下运行)
解决方法 您可以考虑使用克隆检测器,例如我们的 CloneDR.此工具解析大量计算机程序(HTML是特殊情况)文件,构建表示每个文件的基本结构的抽象语法树,并比较程序的相似性.因为它正在比较基本的程序结构,所以它忽略了诸如注释和空格之类的不必要的差异,并且确定两个代码段是相同的,或者可以通过替换其他代码块来从另一个代码段获得.后者允许识别以各种方式修改的代码.您可以在网站上看到克隆检测的示例在各种计算机语言上运行.
在您的情况下,您要查找的是系统A中的文件,这些文件基本上是系统B中文件的克隆(精确或接近未命中).作为一般规则,如果文件a是文件b的变体(例如,一些更改)CloneDr会将其报告为克隆并显示确切的差异.
在20,000个文件的范围内,我可以看到你想要一个工具的原因,我可以看到为什么你想要近乎未命中的匹配而不是完全匹配.
不在linux下运行,但我认为你的问题很难解决,所以这不是你正在优化的.
总结以上是内存溢出为你收集整理的批量比较/差异HTML的工具全部内容,希望文章能够帮你解决批量比较/差异HTML的工具所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)