如何将PDF转换成excel
用烁光PDF转换器转换
*** 作步骤:
1、首先在电脑上下载安装烁光PDF转换器这款软件,可进入官网ipdftoolcom下载最新版本2、打开烁光PDF转换器,点击主页面的PDF转文件功能进入。3、点击添加文件,把需要转换成excel的PDF文件添加到软件里,然后选择转换类型为PDF转excel,选择输出格式和输出目录,最后点击开始转换,接着等待PDF转excel转换完成就可以了
大家好,我是Peter~
在很多情况下,我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取,真的是一个令人头疼的问题。
因为PDF文件不能像Word那样直接复制,即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据?本文提供两个解决方案:
首先提供的一种方法是从文字 PDF 中提取表格信息的工具:Camelot,它能够直接将大部分表格转换为 Pandas 的 Dataframe。
更多的详细信息,请参考项目地址: https://githubcom/camelot-dev/camelot
camelot的安装有多种方式。如果有报错,网上一般有解决方式:
1、通过conda安装
2、使用pip进行安装
3、通过GitHub进行安装
首先将项目复制到本地:
然后进入文件中进行安装:
下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件testpdf:
1、先读取文件
导出成csv格式的数据(方式1)
查看tables的相关信息:
导出方式2:
将数据转换成DataFrame:
tabula的功能比camelot更加强大,可以同时对多个表格数据进行提取。项目的具体地址请参考: https://githubcom/chezou/tabula-py
tabula的安装是非常简单的:
安装之后检验这个库是否安装成功:
通过tabula这个库来读取PDF文件:
然后我们发现列表中唯一的一个元素就是dataframe:
将读取到的数据输出成CSV格式的文件:
上面读取的PDF文件是比较简单的,只有一页,而且刚好是一个很标准的表格形式的数据,下面看一个比较复杂的例子:
下面是第一页,第一列可以看成是索引:
在第二页中有两份表格,而且中间有很多的空白行:
第三页的数据比较标准:
这3页是在同一个PDF文件中,这3页是在同一个PDF文件中,这3页是在同一个PDF文件中
上面的红色提示中我们看到:当没有指定pages参数的时候,只会默认读取第一页的数据,所以列表的长度为1。
转成dataframe后将原来的索引变成新的一列 (部分数据)
通过pages来读取全部数据:
通过指定pages="all":
同时获取两个表格的数据:
通过area参数来指定:
删除在读取的表格中我们不需要的字段信息
可以将得到的数据输出成不同格式的文件,以json格式为例:
我们可以看到
在Excel中插入pdf文件 在桌面上新建一个需要插入pdf文件的excel文件并打开它。
在打开的窗口中点击“由文件创建”菜单选项,然后在打开的页面中点击“浏览按钮”。
在打开的窗口中找到要插入的pdf文件,点击“插入”按钮,然后将“显示为图标”前面的勾勾上,然后点击‘确定’按钮。
回到当前excel文件中就可以看到pdf文件插进来了。
怎么提取文档中的表格数据呢?如何将电子文档中的表格数据提取并生成Excel文档呢?下面就是具体的实现方法。
如果提取文档中的电子表格呢?通常我们可以借助相关PDf编辑器对表格数据进行编辑 *** 作。
如果想将PDF文档中的表格提取并生成Excel表格,可以借助相关转换工具来实现。在“文档转换”列表中点击“PDF转Excel”项。
待进入所示的“PDf转Excel”界面后,点击“添加文件”按钮,以便选择相应的文档进行转换。
在正式转换前,我们需要确保文档中包含相关二维Excel表格,同时对转换的相关参数进行设置,点击“开始转换”按钮。
当完成了转Excel *** 作后,我们就可以直接通过Excel程序打开此文档进行查看了。所示:
当打开经转换的Excel文档时,将显示所示的提示窗口,在此可以选择“是”以兼容模式查看文档。
添加spirepdfdll为引用,使用下面的代码即可提取pdf中所有表格数据到txt文档:
using SystemIO;
using SystemText;
using SpirePdf;
using SpirePdfUtilities;
namespace ExtractPdfTable
{
class Program
{
static void Main(string[] args)
{
//Create a PdfDocument object
PdfDocument doc = new PdfDocument();
//Load the sample PDF file
docLoadFromFile(@"C:\Users\Administrator\Desktop\Tablepdf");
//Create a StringBuilder object
StringBuilder builder = new StringBuilder();
//Initialize an instance of PdfTableExtractor class
PdfTableExtractor extractor = new PdfTableExtractor(doc);
//Declare a PdfTable array
PdfTable[] tableList = null;
int tableNum = 1;
//Loop through the pages
for (int pageIndex = 0; pageIndex < docPagesCount; pageIndex++)
{
//Extract tables from a specific page
tableList = extractorExtractTable(pageIndex);
//Determine if the table list is null
if (tableList != null && tableListLength > 0)
{
//Loop through the table in the list
foreach (PdfTable table in tableList)
{
builderAppend("Table " + tableNum);
builderAppend("\r\n");
//Get row number and column number of a certain table
int row = tableGetRowCount();
int column = tableGetColumnCount();
//Loop though the row and colunm
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//Get text from the specific cell
string text = tableGetText(i, j);
//Add text to the string builder
builderAppend(text + " ");
}
builderAppend("\r\n");
}
builderAppend("\r\n");
tableNum += 1;
}
}
}
//Write to a txt file
FileWriteAllText("Tabletxt", builderToString());
}
}
}
这个微信自带直接保存即可。
打开收到的PDF文件的对话框,点击PDF文件。PDF文档页面显示出来会自动下载,如果没有自动下载,可以手工点击“下载”。。PDF文档下载完成后会显示文档内容,可以点击右上角三个点处,选择用其他应用打开。根据实际情况,可以选择用其他应用打开,也可以选择其他应用保存。
我是直接转换格式,将整个PDF文件转换为Word。首先打开在线speedpdf转换找到“PDF转Word”,其次上传PDF文件点击转换,最后进度结束就可以下载Word文档。但是最大文档不能超过3兆,它一天可以转换5次。如果文件不大,在线转换也能直接提取Word。希望我的回答能帮到你。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)