如何提取pdf中的数据将pdf转换成excel

如何提取pdf中的数据将pdf转换成excel,第1张

如何将PDF转换成excel

用烁光PDF转换器转换

*** 作步骤:

1、首先在电脑上下载安装烁光PDF转换器这款软件,可进入官网ipdftoolcom下载最新版本2、打开烁光PDF转换器,点击主页面的PDF转文件功能进入。3、点击添加文件,把需要转换成excel的PDF文件添加到软件里,然后选择转换类型为PDF转excel,选择输出格式和输出目录,最后点击开始转换,接着等待PDF转excel转换完成就可以了

大家好,我是Peter~

在很多情况下,我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取,真的是一个令人头疼的问题。

因为PDF文件不能像Word那样直接复制,即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据?本文提供两个解决方案:

首先提供的一种方法是从文字 PDF 中提取表格信息的工具:Camelot,它能够直接将大部分表格转换为 Pandas 的 Dataframe。

更多的详细信息,请参考项目地址: https://githubcom/camelot-dev/camelot

camelot的安装有多种方式。如果有报错,网上一般有解决方式:

1、通过conda安装

2、使用pip进行安装

3、通过GitHub进行安装

首先将项目复制到本地:

然后进入文件中进行安装:

下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件testpdf:

1、先读取文件

导出成csv格式的数据(方式1)

查看tables的相关信息:

导出方式2:

将数据转换成DataFrame:

tabula的功能比camelot更加强大,可以同时对多个表格数据进行提取。项目的具体地址请参考: https://githubcom/chezou/tabula-py

tabula的安装是非常简单的:

安装之后检验这个库是否安装成功:

通过tabula这个库来读取PDF文件:

然后我们发现列表中唯一的一个元素就是dataframe:

将读取到的数据输出成CSV格式的文件:

上面读取的PDF文件是比较简单的,只有一页,而且刚好是一个很标准的表格形式的数据,下面看一个比较复杂的例子:

下面是第一页,第一列可以看成是索引:

在第二页中有两份表格,而且中间有很多的空白行:

第三页的数据比较标准:

这3页是在同一个PDF文件中,这3页是在同一个PDF文件中,这3页是在同一个PDF文件中

上面的红色提示中我们看到:当没有指定pages参数的时候,只会默认读取第一页的数据,所以列表的长度为1。

转成dataframe后将原来的索引变成新的一列 (部分数据)

通过pages来读取全部数据:

通过指定pages="all":

同时获取两个表格的数据:

通过area参数来指定:

删除在读取的表格中我们不需要的字段信息

可以将得到的数据输出成不同格式的文件,以json格式为例:

我们可以看到

在Excel中插入pdf文件 在桌面上新建一个需要插入pdf文件的excel文件并打开它。

在打开的窗口中点击“由文件创建”菜单选项,然后在打开的页面中点击“浏览按钮”。

在打开的窗口中找到要插入的pdf文件,点击“插入”按钮,然后将“显示为图标”前面的勾勾上,然后点击‘确定’按钮。

回到当前excel文件中就可以看到pdf文件插进来了。

怎么提取文档中的表格数据呢?如何将电子文档中的表格数据提取并生成Excel文档呢?下面就是具体的实现方法。

如果提取文档中的电子表格呢?通常我们可以借助相关PDf编辑器对表格数据进行编辑 *** 作。

如果想将PDF文档中的表格提取并生成Excel表格,可以借助相关转换工具来实现。在“文档转换”列表中点击“PDF转Excel”项。

待进入所示的“PDf转Excel”界面后,点击“添加文件”按钮,以便选择相应的文档进行转换。

在正式转换前,我们需要确保文档中包含相关二维Excel表格,同时对转换的相关参数进行设置,点击“开始转换”按钮。

当完成了转Excel *** 作后,我们就可以直接通过Excel程序打开此文档进行查看了。所示:

当打开经转换的Excel文档时,将显示所示的提示窗口,在此可以选择“是”以兼容模式查看文档。

添加spirepdfdll为引用,使用下面的代码即可提取pdf中所有表格数据到txt文档:

using SystemIO;

using SystemText;

using SpirePdf;

using SpirePdfUtilities;

namespace ExtractPdfTable

{

    class Program

    {

        static void Main(string[] args)

        {

            //Create a PdfDocument object

            PdfDocument doc = new PdfDocument();

            //Load the sample PDF file

            docLoadFromFile(@"C:\Users\Administrator\Desktop\Tablepdf");

            //Create a StringBuilder object

            StringBuilder builder = new StringBuilder();

            //Initialize an instance of PdfTableExtractor class

            PdfTableExtractor extractor = new PdfTableExtractor(doc);

            //Declare a PdfTable array 

            PdfTable[] tableList = null;

            int tableNum = 1;

            //Loop through the pages 

            for (int pageIndex = 0; pageIndex < docPagesCount; pageIndex++)

            {

                //Extract tables from a specific page

                tableList = extractorExtractTable(pageIndex);

                //Determine if the table list is null

                if (tableList != null && tableListLength > 0)

                {

                    //Loop through the table in the list

                    foreach (PdfTable table in tableList)

                    {

                        builderAppend("Table " + tableNum);

                        builderAppend("\r\n");

                        //Get row number and column number of a certain table

                        int row = tableGetRowCount();

                        int column = tableGetColumnCount();

                        //Loop though the row and colunm 

                        for (int i = 0; i < row; i++)

                        {

                            for (int j = 0; j < column; j++)

                            {

                                //Get text from the specific cell

                                string text = tableGetText(i, j);

                                //Add text to the string builder

                                builderAppend(text + " ");

                            }

                            builderAppend("\r\n");                    

                        }

                        builderAppend("\r\n");

                        tableNum += 1;

                    }

                }

            }

            //Write to a txt file

            FileWriteAllText("Tabletxt", builderToString());

        }

    }

}

这个微信自带直接保存即可。

打开收到的PDF文件的对话框,点击PDF文件。PDF文档页面显示出来会自动下载,如果没有自动下载,可以手工点击“下载”。。PDF文档下载完成后会显示文档内容,可以点击右上角三个点处,选择用其他应用打开。根据实际情况,可以选择用其他应用打开,也可以选择其他应用保存。

我是直接转换格式,将整个PDF文件转换为Word。首先打开在线speedpdf转换找到“PDF转Word”,其次上传PDF文件点击转换,最后进度结束就可以下载Word文档。但是最大文档不能超过3兆,它一天可以转换5次。如果文件不大,在线转换也能直接提取Word。希望我的回答能帮到你。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/12189261.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存