C#如何读取pdf文本_教程

NuGet包管理器 ->程序包管理器控制台 ->输入Install-Package Spire.PDF然后按回车安装dll

然后使用下面代码读取PDF文本

using System

using System.IO

using System.Text

using Spire.Pdf

namespace ExtractText_PDF

{

class Program

{

static void Main(string[] args)

{

//实例化PdfDocument类对象，并加载PDF文档

PdfDocument doc = new PdfDocument()

doc.LoadFromFile("sample.pdf")

//实例化一个StringBuilder 对象

StringBuilder content = new StringBuilder()

//遍历文档所有PDF页面，提取文本

foreach (PdfPageBase page in doc.Pages)

{

content.Append(page.ExtractText())

}

//将提取到的文本写为.txt格式并保存到本地路径

String fileName = "获取文本.txt"

File.WriteAllText(fileName, content.ToString())

}

C++程序读取PDF中的文本。Adobe允许你提交PDF文件，提取成文本或HTML后再通过邮件发送给你。但是假如你需要自己提取文本或在程序中加入这个功能的话，需要花费很多时间。也许你还需要对文本应用某些特殊格式（如，添加tab分隔符）以便它们能够导入到Execl中（比如，你需要将PDF文档中包含的表格数据导入到Excel中，这就是编写这段代码的目的）。附件中的程序使用VC6.0编译通过，可以成功的读取PDF文件中的文本。并且保存到一个txt文件中

1.pdf（Portable

Document

Format的简称，意为“便携式文档格式”），是由Adobe

Systems用于与应用程序、 *** 作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图象模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印效果，即PDF会忠实地再现原稿的每一个字符、颜色以及图象。

2.对于程序来说，不管后缀名如何，文件分为两种类型：文本文件和二进制文件。

C语言里有一系列文件 *** 作函数。区分文本和二进制文件，需要在打开文件时设置不同的控制符mode的变量即可。

3.fopen的函数原型：FILE

fopen(const

char

path,const

char

mode)

fopen函数的第一个参数是文件路径，第二个参数是打开方式，有以下几种方式：

以只读方式打开文件，该文件必须存在。

以可读写方式打开文件，该文件必须存在。

rb+

读写打开一个二进制文件，允许读数据。

rw+

读写打开一个文本文件，允许读和写。

打开只写文件，若文件存在则文件长度清为0，即该文件内容会消失。若文件不存在则建立该文件。

打开可读写文件，若文件存在则文件长度清为零，即该文件内容会消失。若文件不存在则建立该文件。

以附加的方式打开只写文件。若文件不存在，则会建立该文件，如果文件存在，写入的数据会被加到文件尾，即文件原先的内容会被保留。（EOF符保留）

以附加方式打开可读写的文件。若文件不存在，则会建立该文件，如果文件存在，写入的数据会被加到文件尾后，即文件原先的内容会被保留。

（原来的EOF符不保留）

只写打开或新建一个二进制文件；只允许写数据。

wb+

读写打开或建立一个二进制文件，允许读和写。

wt+

读写打开或着建立一个文本文件；允许读写。

at+

读写打开一个文本文件，允许读或在文本末追加数据。

ab+

读写打开一个二进制文件，允许读或在文件末追加数据。

上述的形态字符串都可以再加一个b字符，如rb、w+b或ab+等组合，加入b

字符用来告诉函数库打开的文件为二进制文件，而非纯文字文件。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/11870938.html

C#如何读取pdf文本

发表评论

评论列表（0条）