根本的挑战是确定标题段落。对于读者而言,没有什么能阻止作者将“常规”段落格式化为看起来(并充当)标题的方式。
但是,对于作者来说,可靠地使用样式创建标题并不罕见,因为这样做可以将这些标题自动编译到目录中。
在这种情况下,您可以遍历段落,然后选择标题样式之一的段落。
def iter_headings(paragraphs): for paragraph in paragraphs: if paragraph.style.name.startswith('Heading'): yield paragraphfor heading in iter_headings(document.paragraphs): print heading.text
如果标题级别保留默认值(例如“标题1”,“标题2”等),则可以从样式的完整名称中进行解析。
如果作者重命名了标题样式,则可能需要对此进行调整。
有更复杂的方法更可靠(就样式名称而言是独立的),但是这些方法不支持API,因此您需要深入研究内部代码并直接与我期望的某些样式XML进行交互。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)