如何计算两份代码的相似度?

如何计算两份代码的相似度?,第1张

问题里既然说是代码了,那就可以看到源码了?(我默认)最简单的就是diff一下啦,对策可以改改代码风格,排版,变量命名,甚至插曲一些无用代码等等。这些只是看起来不同了。另外几位大神的答案,似乎忽略了程序运行时的状况呢,如果程序本身逻辑没变,只是文本和语法上做些处理(忽略lisp之类的奇葩),程序运行起来之后,比较调用堆栈的变化,这种方法很容易识破。你说运行起来比较难的话,那就忽略了测试人员的作用了,把程序/代码段/模块 当成黑盒,通过mock等方式,还是可以一部分一部分搞的。那改变调用层次,函数套函数?甚至某些地方变成宏?模块重构?诸如此类。这就不好识别了。模块都给重构了的话,姑且不算抄了,但是设计上一样的,人工code review,去了解它的设计,还是能识破。首先可以diff一下,然后看运行状态,如果是差别很大的,看设计,做code review,看文档,如果自己的代码特别多,而人家的代码又拿不到,可以在自己的代码里加些【水印】,比如搞些magic number,运行时去调试,就找这个magic number,有的话,基本就是盗的。计算的话,我觉得评级比较靠谱,列规则,挨个检测,根据规则中q程度评级,完全量化的方法应该很难做到,但是规则+评级 可以糙快猛的构造出一个比较相似度的系统,工程思维哈,不断根据实践,去调整这个系统,让它更接近准确就可以啦~我说的都是土方法,期待学术大神给个系统答案。

你把这道题想到太简单了。和读文件的方法没啥关系,肯定是文本方式 *** 作文件。关键是把文件读到字符串 里后如何识别关键字及相似性判定,需要熟悉字符串处理。没有一个C++系统自带能读文件中某个关键字的库!

用string当然可以,你自己最好从string继承一个类,增加识别关键字的方法。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11025757.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-13
下一篇 2023-05-13

发表评论

登录后才能评论

评论列表(0条)

保存