linux系统打不开docx文件

linux系统打不开docx文件,第1张

打不开通常是因为没有安装下载wps或者libreoffic等解压文件的应用,先下载安装完成后,在图形界面中,右键点击“文件”,选择“属性”选项,设置默认打开方式为已经安装的软件,确定后双击文件即可打开。

第一步:获取doc文件的xml组成文件

import zipfiledef get_word_xml(docx_filename):

with open(docx_filename) as f:

zip = zipfile.ZipFile(f)

xml_content = zip.read('word/document.xml')

return xml_content

第二步:解析xml为树形数据结构

from lxml import etreedef get_xml_tree(xml_string):

return etree.fromstring(xml_string)

第三步:读取word内容:

def _itertext(self, my_etree):

"""Iterator to go through xml tree's text nodes"""

for node in my_etree.iter(tag=etree.Element):

if self._check_element_is(node, 't'):

yield (node, node.text)def _check_element_is(self, element, type_char):

word_schema = '99999'

return element.tag == '{%s}%s' % (word_schema,type_char)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7172189.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-02
下一篇 2023-04-02

发表评论

登录后才能评论

评论列表(0条)

保存