Python 和 BeautifulSoup 怎么把 html table 处理成 csv_随笔

Python 和 BeautifulSoup 把 html table 处理成 csv，代码如下：

#coding:utf8

import urllib

import urllib2

import cookielib

import re

import csv

import codecs

from bs4 import BeautifulSoup

wiki = 'https://zh.wikipedia.org/wiki/%E6%96%87%E4%BB%B6%E7%BC%96%E8%BE%91%E5%99%A8%E6%AF%94%E8%BE%83'

header = {'User-Agent': 'Mozilla/5.0'}

req = urllib2.Request(wiki,headers=header)

page = urllib2.urlopen(req)

soup = BeautifulSoup(page)

name = "" #名字

creater = ""#归属

first = "" #首次公开发布的时间

latest = "" #最新稳定版本

cost = "" #售价

licence = ""#授权条款

table = soup.find("table", {"class" : "sortable wikitable"})

f = open('table.csv', 'w')

csv_writer = csv.writer(f)

td_th = re.compile('t[dh]')

for row in table.findAll("tr"):

cells = row.findAll(td_th)

if len(cells) == 6:

name = cells[0].find(text=True)

if not name:

continue

creater = cells[1].find(text=True)

first = cells[2].find(text=True)

latest = cells[3].find(text=True)

cost = cells[4].find(text=True)

licence = cells[5].find(text=True)

csv_writer.writerow([ x.encode('utf-8') for x in [name, creater, first, latest, cost, licence]])

f.close()

//HTML表格的每行转为CSV格式数组

function get_tr_array($table) {

$table = preg_replace("'<td[^>]*?>'si",'"',$table)

$table = str_replace("</td>",'",',$table)

$table = str_replace("</tr>","{tr}",$table)

//去HTML 标记

$table = preg_replace("'<[\/\!]*?[^<>]*?>'si","",$table)

//去空白字符

$table = preg_replace("'([\r\n])[\s]+'","",$table)

$table = str_replace(" ","",$table)

$table = explode(",{tr}",$table)

array_pop($table)

总的来说，两种方法：服务器端生成和浏览器端生成。

服务器端生成就是：根据用户请求，获取相应的数据，使用poi/jxl, jacob/jawin+excel,或是用数据拼html的table或是cvs纯文本的数据格式等。然后按.xls或是.cvs格式的文件的形式返回给用户，指定Content-Type:application/vnd.ms-excel ,浏览器就会提示要下载的文件是excel文件。

poi/jxl, jacob/jawin生成的是excel的biff格式。html/csv的是文本格式，不另存为excel文件，很多excel功能是用不了的。jacob/jawin需要服务器端是windows系统，且安装了excel2000以上版本。poi/jxl和html/csv方式的话，服务器端可以跨平台。

浏览器端生成excel文件还没有特别完善的方案，这是因为js无法处理二进制。大概有以下几个方案，各有利弊。

1. activex方式：使用js/vbs调用excel对象，http://setting.iteye.com/blog/219302，有个extjs的gridpanel导出为excel的例子。（ie+excel）

2. ie命令方式：将html或是csv输出到open的window，然后使用execCommand的saveas命令，存为csv或xls。 (ie only)

3. 服务器端中转方式：将html的table或是拼接的csv传到服务器端，服务器端再按照Content-Type:application/vnd.ms-excel返回，浏览器就会按excel方式处理。与服务器端拼接相比，少了一次取数 *** 作。 (all)

4. data协议方式：对于支持data协议的浏览器，可以将html或是csv先用js base64处理，然后前缀data:application/vnd.ms-excelbase64,，即可使浏览器将其中的数据当做excel来处理，浏览器将提示下载或打开excel文件,可惜的是ie不支持。extjs的官网有一个grid的plugin，实现导出xhtml格式的伪excel文件，就是这么做的。 (except IE)

浏览器端只有第一种方案导出的是真正的biff格式的excel文件，其他方式都是文本格式。activex方式只能在windows平台的ie浏览器使用，而且需要降低ie的安全性，所以应用比较有限。复杂的excel文件，还是在服务器端用poi/jxl生成excel比较好。如果浏览器固定位ie，浏览器端方式2是最好的方案。如果要降低服务器端cpu的计算压力，客户端方案3可行，而且跨平台（比poi/jxl方式少了取数和生成二进制文件）。如果是非ie浏览器，方案4也不失为一种好方法。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7209742.html

Python 和 BeautifulSoup 怎么把 html table 处理成 csv

发表评论

评论列表（0条）