使用python-docx从.docx文件中提取图像位置_随笔

使用python-docx从.docx文件中提取图像位置

API不直接支持此 *** 作。

但是，如果您愿意稍微研究一下内部结构并使用底层

lxml

API，则有可能。

一般方法是访问与

ImagePart

要检查和修改的图片相对应的实例，然后读写

._blob

属性（将图像文件保存为字节）。

这个示例XML可能会有所帮助：http : //python-
docx.readthedocs.io/en/latest/dev/analysis/features/shapes/picture.html#specimen-
xml

从包含图片的嵌入式形状中，您可以得到

<a:blip>

具有以下内容的元素：

blip = inline_shape._inline.graphic.graphicData.pic.blipFill.blip

关系ID（通常为r：id，但在这种情况下为r：embed）可在以下位置获得：

rId = blip.embed

然后您可以从文档部分获取图像部分

document_part = document.partimage_part = document_part.related_parts[rId]

然后可以使用二进制映像进行读写

._blob

。

如果编写新的Blob，则保存后它将替换先前的图像。

您可能想要使它与单个图像配合使用，并在将其扩展到单个文档中的多个图像之前对它有所了解。

可能会缓存一两个图像特征，因此在保存并重新加载文件之前，可能无法使所有细微的功能都起作用，因此请注意这一点。

如您所见，这并不会让您胆怯，但是如果您希望它足够糟糕并且可以稍微遍历代码，则应该可以使用：)

欢迎分享，转载请注明来源：内存溢出

使用python-docx从.docx文件中提取图像位置