方法如下:
*** 作设备:戴尔笔记本电脑
*** 作系统:win10
*** 作程序:word2019
1、打开需要比较的其中一个文档。
2、将原文档稍作修改另存为另一个文档,然后点击审阅标签页中的“比较”。
3、在d出对话框中,分别选择需要比较的两个文档,然后点击确定稍等片刻即可完成比较。
4、得到比较结果,两份文档的不同处可轻松找出。
一、原理1、将PDF文档每页转换为图像
2、调用 百度通用文本识别 页面接口,对图像进行内容识别
3、对图像内容进行对比,并将对比不一致的内容在文档图像上进行标记(红框)
4、将对比结果表格输出为html,以便进行识别
二、范围和限制
1、目前仅支持PDF文档之间的对比
2、无法识别图形(盖章和logo)、不清晰字迹
3、需要联网使用(OCR使用的是百度通用文本识别接口,仅限测试使用,暂不限次数)
4、对比存在误差(原因为百度OCR识别无法达到100%准确)
三、安装库
pip install pymupdf
pip install requests
四、参数
originPDF: PDF文档原件路径
contrastPDF: PDF文档扫描件路径
resultRoot: 输出结果路径(提示:程序运行后会清空该目录,请不要直接设置桌面)
输出 : 标注差异的文档图像、Html文档
五、源码
六、执行结果示例:
借助Word工具来实现:针对论文重复度的检测,我们可以借助如图所示的Word程序来实现。我们找到“对比”选项进入。在此我们可以在打开如图所示的“对比文档”界面后,分别选择“源文档”和“修改后的文档”,点击“确定”按钮。接下来就可以进行文章的比对 *** 作了。然后就可以针对文档修改前后进行对比 *** 作了。同时我们也可以查看文档前后修改的信息。我们也可以针对文档的具体修改样式,以及修改的部分进行对比。
当然,还可以在手机上完成论文的查重 *** 作:对于自己所写的论文重复度的检测,其实我们可以借助相关手机APP工具来实现。通过百度搜索下载此款论文查重工具。从打开的论文查重主界面中,切换到“查重”选项卡,并在相应的输入框中输入论文的内容。点击“开始查询”按钮。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)