如何用python读取word

如何用python读取word,第1张

使用Python的内部方法open()读取文本文件

try:

    f=open('/file','r')

    print(f.read())

finally:

    if f:

        f.close()

如果读取word文档推荐使用第三方插件,python-docx 可以在官网上下载

使用方式

# -*- coding: cp936 -*-

import docx

document = docx.Document(文件路径)

docText = '\n\n'.join([

    paragraph.text.encode('utf-8') for paragraph in document.paragraphs

])

print docText

word中文件的格式如图,类似一个标准的参考文献格式,而我的需求是按照作者,论文名,期刊名,时间,期卷号存到一个excel中。

1.首先,word的python读取每次读的是块。

2.通过对格式的分析,确定了利用,来分割字符串,然后再用.来分割上次分割的第一个字符串,这对于期刊论文很适用,对于会议论文的可用性就弱很多。

3.数据的传递使用的是list而不是字典,如果有机会的话,可能字典更好用,只是时间有限。

python自带的split

并且支持反向切割,str.rsplit()语法和正向一致

2.re库带的split,自认为的亮点是可以支持吧不同的符号作为切割位点,例如,

re.match与re.search的区别

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法:


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9974463.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存