从Word文档中提取标题文本

从Word文档中提取标题文本,第1张

从Word文档中提取标题文本

根本的挑战是确定标题段落。对于读者而言,没有什么能阻止作者将“常规”段落格式化为看起来(并充当)标题的方式。

但是,对于作者来说,可靠地使用样式创建标题并不罕见,因为这样做可以将这些标题自动编译到目录中。

在这种情况下,您可以遍历段落,然后选择标题样式之一的段落。

def iter_headings(paragraphs):    for paragraph in paragraphs:        if paragraph.style.name.startswith('Heading'): yield paragraphfor heading in iter_headings(document.paragraphs):    print heading.text

如果标题级别保留默认值(例如“标题1”,“标题2”等),则可以从样式的完整名称中进行解析。

如果作者重命名了标题样式,则可能需要对此进行调整。

有更复杂的方法更可靠(就样式名称而言是独立的),但是这些方法不支持API,因此您需要深入研究内部代码并直接与我期望的某些样式XML进行交互。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5617615.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存