C#如何读取pdf文本

C#如何读取pdf文本,第1张

NuGet包管理器 ->程序包管理器控制台 ->输入Install-Package Spire.PDF然后按回车安装dll

然后使用下面代码读取PDF文本

using System

using System.IO

using System.Text

using Spire.Pdf

namespace ExtractText_PDF

{

class Program

{

static void Main(string[] args)

{

//实例化PdfDocument类对象,并加载PDF文档

PdfDocument doc = new PdfDocument()

doc.LoadFromFile("sample.pdf")

//实例化一个StringBuilder 对象

StringBuilder content = new StringBuilder()

//遍历文档所有PDF页面,提取文本

foreach (PdfPageBase page in doc.Pages)

{

content.Append(page.ExtractText())

}

//将提取到的文本写为.txt格式并保存到本地路径

String fileName = "获取文本.txt"

File.WriteAllText(fileName, content.ToString())

}

}

}

C++程序读取PDF中的文本。Adobe允许你提交PDF文件,提取成文本或HTML后再通过邮件发送给你。但是假如你需要自己提取文本或在程序中加入这个功能的话,需要花费很多时间。也许你还需要对文本应用某些特殊格式(如,添加tab分隔符)以便它们能够导入到Execl中(比如,你需要将PDF文档中包含的表格数据导入到Excel中,这就是编写这段代码的目的)。附件中的程序使用VC6.0编译通过,可以成功的读取PDF文件中的文本。并且保存到一个txt文件中

1.pdf(Portable

Document

Format的简称,意为“便携式文档格式”),是由Adobe

Systems用于与应用程序、 *** 作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图象。

2.对于程序来说,不管后缀名如何,文件分为两种类型:文本文件和二进制文件。

C语言里有一系列文件 *** 作函数。区分文本和二进制文件,需要在打开文件时设置不同的控制符mode的变量即可。

3.fopen的函数原型:FILE

*

fopen(const

char

*

path,const

char

*

mode)

fopen函数的第一个参数是文件路径,第二个参数是打开方式,有以下几种方式:

r

以只读方式打开文件,该文件必须存在。

r+

以可读写方式打开文件,该文件必须存在。

rb+

读写打开一个二进制文件,允许读数据。

rw+

读写打开一个文本文件,允许读和写。

w

打开只写文件,若文件存在则文件长度清为0,即该文件内容会消失。若文件不存在则建立该文件。

w+

打开可读写文件,若文件存在则文件长度清为零,即该文件内容会消失。若文件不存在则建立该文件。

a

以附加的方式打开只写文件。若文件不存在,则会建立该文件,如果文件存在,写入的数据会被加到文件尾,即文件原先的内容会被保留。(EOF符保留)

a+

以附加方式打开可读写的文件。若文件不存在,则会建立该文件,如果文件存在,写入的数据会被加到文件尾后,即文件原先的内容会被保留。

(原来的EOF符不保留)

wb

只写打开或新建一个二进制文件;只允许写数据。

wb+

读写打开或建立一个二进制文件,允许读和写。

wt+

读写打开或着建立一个文本文件;允许读写。

at+

读写打开一个文本文件,允许读或在文本末追加数据。

ab+

读写打开一个二进制文件,允许读或在文件末追加数据。

上述的形态字符串都可以再加一个b字符,如rb、w+b或ab+等组合,加入b

字符用来告诉函数库打开的文件为二进制文件,而非纯文字文件。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/11868712.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存