如何从pdf中提取文字

如何从pdf中提取文字,第1张

要实现pdf的提取就必须要用到百度网盘,功能强大,使用方法简单。是一款必备的软件。

第一步,打开百度网盘主界面选择文档。

第二步,在文档页面选择全部工具。

第三步,在全部工具里找到,选择pdf提取。

第四步,选择网盘中的的文件。pdf文件开始提取。

第五步,等待提取完成。

注意事项

百度网盘一次可以提取20张pdf的文件,现在还是免费使用的,除了提取pdf还能把pdf转换成各种你需要的文档,ppt,word,Excel都不在话下。

NuGet包管理器 ->程序包管理器控制台 ->输入Install-Package Spire.PDF然后按回车安装dll

然后使用下面代码读取PDF文本

using System

using System.IO

using System.Text

using Spire.Pdf

namespace ExtractText_PDF

{

class Program

{

static void Main(string[] args)

{

//实例化PdfDocument类对象,并加载PDF文档

PdfDocument doc = new PdfDocument()

doc.LoadFromFile("sample.pdf")

//实例化一个StringBuilder 对象

StringBuilder content = new StringBuilder()

//遍历文档所有PDF页面,提取文本

foreach (PdfPageBase page in doc.Pages)

{

content.Append(page.ExtractText())

}

//将提取到的文本写为.txt格式并保存到本地路径

String fileName = "获取文本.txt"

File.WriteAllText(fileName, content.ToString())

}

}

}

推荐使用Foxit PDF Editor VersionF文件编辑软件处理。

Foxit PDF Editor 的功能包括:

-编辑现有 PDF 文件或创建全新的PDF文件。

-以和 Adobe PDF Reader 几乎相同的效果显示 PDF 文件。

-页面缩放。

-可靠的所见即所得的编辑功能。

-插入或删除页面。

-使用嵌入或非嵌入字体添加文本对象。

-插入行或其它简单的图形对象。

-插入 bitmap 格式的图像。

-从页面中删除任意对象。-改变对象的属性。

-可撤消任意 *** 作。-在不同 PDF 文件间拷贝粘贴任意对象。

-在 PDF 和任意 Windows 应用程序间拷贝粘贴文本。

-在 PDF 和任意 Windows 应用程序间拷贝粘贴图像。

安装完软件,并且输入注册码,然后就可以打开PDF文件,进行编辑了:

使用的时候,注意保留备份,免得改完之后,有问题,难以恢复了。

还有就是PDF文件必须是由软件直接生成的,而不能是扫描的,否则也不能编辑的。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8014489.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-12
下一篇 2023-04-12

发表评论

登录后才能评论

评论列表(0条)

保存