如何计算两份代码的相似度？_软件运维

问题里既然说是代码了，那就可以看到源码了？(我默认)最简单的就是diff一下啦，对策可以改改代码风格，排版，变量命名，甚至插曲一些无用代码等等。这些只是看起来不同了。另外几位大神的答案，似乎忽略了程序运行时的状况呢，如果程序本身逻辑没变，只是文本和语法上做些处理(忽略lisp之类的奇葩)，程序运行起来之后，比较调用堆栈的变化，这种方法很容易识破。你说运行起来比较难的话，那就忽略了测试人员的作用了，把程序/代码段/模块当成黑盒，通过mock等方式，还是可以一部分一部分搞的。那改变调用层次，函数套函数？甚至某些地方变成宏？模块重构？诸如此类。这就不好识别了。模块都给重构了的话，姑且不算抄了，但是设计上一样的，人工code review，去了解它的设计，还是能识破。首先可以diff一下，然后看运行状态，如果是差别很大的，看设计，做code review，看文档，如果自己的代码特别多，而人家的代码又拿不到，可以在自己的代码里加些【水印】，比如搞些magic number，运行时去调试，就找这个magic number，有的话，基本就是盗的。计算的话，我觉得评级比较靠谱，列规则，挨个检测，根据规则中q程度评级，完全量化的方法应该很难做到，但是规则+评级可以糙快猛的构造出一个比较相似度的系统，工程思维哈，不断根据实践，去调整这个系统，让它更接近准确就可以啦～我说的都是土方法，期待学术大神给个系统答案。

你把这道题想到太简单了。和读文件的方法没啥关系，肯定是文本方式 *** 作文件。关键是把文件读到字符串里后如何识别关键字及相似性判定，需要熟悉字符串处理。没有一个C++系统自带能读文件中某个关键字的库！

用string当然可以，你自己最好从string继承一个类，增加识别关键字的方法。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11025757.html

如何计算两份代码的相似度？

发表评论

评论列表（0条）