python-办公自动化-Word转PDF、奇数页插空白页、合并PDF

python-办公自动化-Word转PDF、奇数页插空白页、合并PDF,第1张

概述转自:https://blog.csdn.net/m0_48010654/article/details/112605971这里写自定义目录标题前言一、办公自动化基础1.批量处理-importos2.批量处理-生成文件列表3.批量处理-循环语句二、批量Word转PDF三、奇数页插入空白PDF四、合并PDF前言初学python,主要目的是办公

转自:

https://blog.csdn.net/m0_48010654/article/details/112605971

这里写自定义目录标题
前言
一、办公自动化基础
1.批量处理-import os
2.批量处理-生成文件列表
3.批量处理-循环语句
二、批量Word转pdf
三、奇数页插入空白pdf
四、合并pdf
前言
初学python,主要目的是办公自动化,使用场景为日常办公,解决的问题为批量Word转pdf、合并pdf、奇数页插空白页(方便pdf合并后双面打印)、把Excel的内容插入Word批量生成周报等。
因为初学掌握不到位,也还没学会怎样集成代码生成一个工具直接用,只能一部分一部分附上代码。以下代码是用的比较好的。python版本为3.8。
特别说明:使用的代码为网上收集,稍加修改方便使用,特别感谢代码来源博主。
python 还用过Excel内容插入Word批量生成文件、图片扫描成pdf识别,因为篇幅有限,暂不列出。感谢CSDN的前辈们。

一、办公自动化基础
办公自动化主要用到处理Word、Excel、pdf的工具,批量处理的实施。
批量处理第一要用到 os 模块-去设置要处理的文件或放置文件的路径,第二是循环语句。其中代码中用到的模块可以用 pip install 模块名称 --index-url https://pypi.douban.com/simple 下载,–index-url 为使用镜像下载,这样快很多和避免报错。

1.批量处理-import os
import os
os.getcwd(path) --获取当前路径
os.chdir(r’c:----’)–改变当前路径,输入路径记得输入 “r” ,使路径不被转义。
os.walk(path) 遍历路径下所有文件,是根目录-子目录-文件这样的遍历顺序。
os.Listdir(path)当前目录下所有文件(不包含子文件夹里的文件)。
筛选pdf文件可以使用以下方法:
1.判断 os.path.splitext(file)[1]==".pdf" 将文件名和扩展名分开。
2.file.endswith(".pdf")
3.file .spilt(".")[1] = = “pdf”
补充知识【PYthon】os.path.splitext()与os.path.split()的区别

2.批量处理-生成文件列表
定义一个函数生成文件的绝对路径表,(os.path.join()合并路径与文件名)使用os.walk 遍历文件夹,使用 if 判断字符串以“pdf”结束。

def getfilename(filedir):    file_List = [os.path.join(root, filespath) \                 for root, dirs, files in os.walk(filedir) \                 for filespath in files \                 if str(filespath).endswith('pdf')                 ]    return file_List if file_List else []


3.批量处理-循环语句
for i in range (循环次数):
todo( *** 作)
或者
for i in List(某个列表):
todo( *** 作)

二、批量Word转pdf
用到docx2pdf模块,简洁,比win32报错少。路径输入采用input的方式,基本保证路径不会被转义,也不用输入"\"。
map 函数搭配lambda 自定义函数 生成绝对路径的文件名`#Word 转pdf

#pip install --user -i https://pypi.tuna.tsinghua.edu.cn/simple/ docx2pdffrom docx2pdf import convertimport os#转换的文件路径director = input("请输入要转换的文件路径")fileList = map(lambda x: director + '\' + x, os.Listdir(director))for file in fileList:    try:        if file.endswith(".docx")or file.endswith(".doc"):            print(file)            convert(file, f"{file.split('.')[0]}.pdf")    except:                print('Could not convert')    print ("finsh")


参考链接:https://blog.csdn.net/cqcre/article/details/107218349

三、奇数页插入空白pdf
代码来源:利用python处理pdf:奇数页pdf末尾添加一个空白页
代码来源知乎,只是修改了文件路径通过input的方式。

#奇数页pdf插入空白页import os,@R_403_5246@,pyperclippathofcwd = input("请输入要处理的pdf的文件路径")# ^ 需要处理的pdf存放位置class pdfReader:    # ^ 处理pdf的一个类,把和pdf处理有关的代码都放在这里了    blankpdfPath = input("请输入空白pdf的文件路径")    # ^ 空白页pdf存放位置    def __init__(self,pdfPath):        self.pdfPath = pdfPath        self.blankPagefile, self.blankPage = self.openAndReadit(self.blankpdfPath)        self.pdffile, self.pdfReader = self.openAndReadit(self.pdfPath)        def openAndReadit(self,pdfpath):        """        generate the pdfReader object for given path in parameter        """        pdffile = open(pdfpath, 'rb')        pdfReader = @R_403_5246@.pdffileReader(pdffile)        return (pdffile,pdfReader)    def appendBlank(self):        """        no para, return a pdf writer with blankPage appended        """        pdfWriter = @R_403_5246@.pdffileWriter()        for pageNum in range(self.pdfReader.numPages):            pageObj = self.pdfReader.getPage(pageNum)            pdfWriter.addPage(pageObj)        # add the blank page:        pdfWriter.addPage(self.blankPage.getPage(0))        return pdfWriter        def closeAllfile(self):        self.blankPagefile.close()        self.pdffile.close()os.chdir(pathofcwd)fileList = os.Listdir()pdfList = filter(    lambda e:os.path.splitext(e)[1]=='.pdf',    fileList)# ^ 过滤文件列表,只保留pdfpdfReaderList = map(    lambda e:pdfReader(e),    pdfList)# ^ 根据pdf文件路径生成pdfReader类pdfReaderList = filter(    lambda e: e.pdfReader.numPages % 2 == 1,    pdfReaderList)# ^ 只保留奇数页pdf的pdfReader类pdfReaderList = List(pdfReaderList)for pdfReader in pdfReaderList:    pdfAddBlankWriter = pdfReader.appendBlank()    outputPath = os.path.splitext(pdfReader.pdfPath)[0]+'_addBlank'+'.pdf'    pdfOutputfile = open(outputPath,'wb')    pdfAddBlankWriter.write(pdfOutputfile)    pdfOutputfile.close()    pdfReader.closeAllfile()    print("preparing to output as:%s" % outputPath)


四、合并pdf
只是修改了文件路径通过input的方式。
代码来源Python之合并pdf文件

# -*- Coding:utf-8-*-# 利用@R_403_5246@模块合并同一文件夹下的所有pdf文件# 只需修改存放pdf文件的文件夹变量:file_dir 和 输出文件名变量: outfileimport osfrom @R_403_5246@ import pdffileReader, pdffileWriterimport time# 使用os模块的walk函数,搜索出指定目录下的全部pdf文件# 获取同一目录下的所有pdf文件的绝对路径def getfilename(filedir):    file_List = [os.path.join(root, filespath) \                 for root, dirs, files in os.walk(filedir) \                 for filespath in files \                 if str(filespath).endswith('pdf')                 ]    return file_List if file_List else []# 合并同一目录下的所有pdf文件def Mergepdf(filepath, outfile):    output = pdffileWriter()    outputPages = 0    pdf_filename = getfilename(filepath)    if pdf_filename:        for pdf_file in pdf_filename:            print("路径:%s"%pdf_file)            # 读取源pdf文件            input = pdffileReader(open(pdf_file, "rb"))            # 获得源pdf文件中页面总数            pageCount = input.getNumPages()            outputPages += pageCount            print("页数:%d"%pageCount)            # 分别将page添加到输出output中            #可以通过range选择页面            for iPage in range(pageCount):                output.addPage(input.getPage(iPage))        print("合并后的总页数:%d."%outputPages)        # 写入到目标pdf文件        outputStream = open(os.path.join(filepath, outfile), "wb")        output.write(outputStream)        outputStream.close()        print("pdf文件合并完成!")    else:        print("没有可以合并的pdf文件!")# 主函数def main():    time1 = time.time()        file_dir = input("请输入存放pdf的原文件夹路径") # 存放pdf的原文件夹  唯一修改地方    outfile = input("输出的文件名称为") # 输出的pdf文件的名称    Mergepdf(file_dir, outfile)    time2 = time.time()    print('总共耗时:%s s.' %(time2 - time1))main()


代码来源
[1]Word转pdf
[2]利用python处理pdf:奇数页pdf末尾添加一个空白页
[3]Python之合并pdf文件
————————————————
版权声明:本文为CSDN博主「echo-无声呻吟」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_48010654/article/details/112605971

总结

以上是内存溢出为你收集整理的python-办公自动化-Word转PDF、奇数页插空白页、合并PDF全部内容,希望文章能够帮你解决python-办公自动化-Word转PDF、奇数页插空白页、合并PDF所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1186656.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存