Pandas可以立即将html中的所有表格提取到数据框列表中,从而使您不必自己解析页面(重新设计轮子)。甲数据帧是一个强大的类型2维阵列的。
我建议继续通过Pandas处理数据,因为它是一个很好的工具,但是如果您愿意,也可以转换为其他格式(列表,字典,csv文件等)。
例
"""Extract all tables from an html file, printing and saving each to csv file."""import pandas as pddf_list = pd.read_html('my_file.html')for i, df in enumerate(df_list): print df df.to_csv('table {}.csv'.format(i))
直接从Web而不是从文件获取html内容仅需稍作修改:
import requestshtml = requests.get('my_url').contentdf_list = pd.read_html(html)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)