Python通常会将数据输出到文件(如CSV,XLSX或TXT)或数据库,以便用户可以将其轻松导入到表格软件(如Microsoft Excel)中。此外,您也可以使用Python中的模块来实现直接将数据输出到表格。
最好是全部都读取到程序中,在程序中进行判断。
本文实例讲述了Python实现批量读取word中表格信息的方法。分享给大家供大家参考。具体如下:
单位收集了很多word格式的调查表,领导需要收集表单里的信息,我就把所有调查表放一个文件里,写了个python小程序把所需的信息打印出来
#coding:utf-8
import os
import win32com
from win32comclient import Dispatch, constants
from docx import Document
def parse_doc(f):
"""读取doc,返回姓名和行业
"""
doc = wDocumentsOpen( FileName = f )
t = docTables[0] # 根据文件中的图表选择信息
name = tRows[0]Cells[1]RangeText
situation = tRows[0]Cells[5]RangeText
people = tRows[1]Cells[1]RangeText
title = tRows[1]Cells[3]RangeText
print name, situation, people,title
docClose()
def parse_docx(f):
"""读取docx,返回姓名和行业
"""
d = Document(f)
t = dtables[0]
name = tcell(0,1)text
situation = tcell(0,8)text
people = tcell(1,2)text
title = tcell(1,8)text
print name, situation, people,title
if __name__ == "__main__":
w = win32comclientDispatch('WordApplication')
# 遍历文件
PATH = "H:\work\\aaa" # windows文件路径
doc_files = oslistdir(PATH)
for doc in doc_files:
if ospathsplitext(doc)[1] == 'docx':
try:
parse_docx(PATH+'\\'+doc)
except Exception as e:
print e
elif ospathsplitext(doc)[1] == 'doc':
try:
parse_doc(PATH+'\\'+doc)
except Exception as e:
print e
希望本文所述对大家的Python程序设计有所帮助。
pdfplumber 是一个开源 python 工具库-,可以方便地获取 pdf 的各种信息,包括文本、表格、图表、尺寸等。完成我们本文的需求,主要使用 pdfplumber 提取 pdf 表格数据。
python 中还有很多库可以处理 pdf,比如 PyPDF2、pdfminer 等,本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息,包括作者、来源、日期等,并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求,再去解锁 pdfplumber 的更多用法。
看你抓的是静态还是动态的了,这里是静态表格信息的代码:
from BeautifulSoup import BeautifulSoupimport urllib2
import re
import string
def earse(strline,ch) :
left = 0
right = strlinefind(ch)
while right !=-1 :
strline = strlinereplace(ch,'')
right = strlinefind(ch)
return strline
url = r">
以上就是关于python数据输出到表格是存到哪儿了全部的内容,包括:python数据输出到表格是存到哪儿了、python如何获取word文件中某个关键字之后的表格、用python批量提取pdf的表格数据,保存为excel等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)