如何用python读取word_sql

使用Python的内部方法open()读取文本文件

try:

f=open('/file','r')

print(f.read())

finally:

if f:

f.close()

如果读取word文档推荐使用第三方插件，python-docx 可以在官网上下载

使用方式

# -*- coding: cp936 -*-

import docx

document = docx.Document(文件路径)

docText = '\n\n'.join([

paragraph.text.encode('utf-8') for paragraph in document.paragraphs

])

print docText

word中文件的格式如图，类似一个标准的参考文献格式，而我的需求是按照作者，论文名，期刊名，时间，期卷号存到一个excel中。

1.首先，word的python读取每次读的是块。

2.通过对格式的分析，确定了利用，来分割字符串，然后再用.来分割上次分割的第一个字符串，这对于期刊论文很适用，对于会议论文的可用性就弱很多。

3.数据的传递使用的是list而不是字典，如果有机会的话，可能字典更好用，只是时间有限。

python自带的split

并且支持反向切割，str.rsplit()语法和正向一致

2.re库带的split，自认为的亮点是可以支持吧不同的符号作为切割位点，例如，

re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配

Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。

语法：

欢迎分享，转载请注明来源：内存溢出

如何用python读取word