#coding:utf8
import urllib
import urllib2
import cookielib
import re
import csv
import codecs
from bs4 import BeautifulSoup
wiki = 'https://zh.wikipedia.org/wiki/%E6%96%87%E4%BB%B6%E7%BC%96%E8%BE%91%E5%99%A8%E6%AF%94%E8%BE%83'
header = {'User-Agent': 'Mozilla/5.0'}
req = urllib2.Request(wiki,headers=header)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)
name = "" #名字
creater = ""#归属
first = "" #首次公开发布的时间
latest = "" #最新稳定版本
cost = "" #售价
licence = ""#授权条款
table = soup.find("table", {"class" : "sortable wikitable"})
f = open('table.csv', 'w')
csv_writer = csv.writer(f)
td_th = re.compile('t[dh]')
for row in table.findAll("tr"):
cells = row.findAll(td_th)
if len(cells) == 6:
name = cells[0].find(text=True)
if not name:
continue
creater = cells[1].find(text=True)
first = cells[2].find(text=True)
latest = cells[3].find(text=True)
cost = cells[4].find(text=True)
licence = cells[5].find(text=True)
csv_writer.writerow([ x.encode('utf-8') for x in [name, creater, first, latest, cost, licence]])
f.close()
//HTML表格的每行转为CSV格式数组function get_tr_array($table) {
$table = preg_replace("'<td[^>]*?>'si",'"',$table)
$table = str_replace("</td>",'",',$table)
$table = str_replace("</tr>","{tr}",$table)
//去HTML 标记
$table = preg_replace("'<[\/\!]*?[^<>]*?>'si","",$table)
//去空白字符
$table = preg_replace("'([\r\n])[\s]+'","",$table)
$table = str_replace(" ","",$table)
$table = str_replace(" ","",$table)
$table = explode(",{tr}",$table)
array_pop($table)
总的来说,两种方法:服务器端生成和浏览器端生成。服务器端生成就是:根据用户请求,获取相应的数据,使用poi/jxl, jacob/jawin+excel,或是用数据拼html的table或是cvs纯文本的数据格式等。然后按.xls或是.cvs格式的文件的形式返回给用户,指定Content-Type:application/vnd.ms-excel ,浏览器就会提示要下载的文件是excel文件。
poi/jxl, jacob/jawin生成的是excel的biff格式。html/csv的是文本格式,不另存为excel文件,很多excel功能是用不了的。jacob/jawin需要服务器端是windows系统,且安装了excel2000以上版本。poi/jxl和html/csv方式的话,服务器端可以跨平台。
浏览器端生成excel文件还没有特别完善的方案,这是因为js无法处理二进制。大概有以下几个方案,各有利弊。
1. activex方式:使用js/vbs调用excel对象,http://setting.iteye.com/blog/219302,有个extjs的gridpanel导出为excel的例子。 (ie+excel)
2. ie命令方式:将html或是csv输出到open的window,然后使用execCommand的saveas命令,存为csv或xls。 (ie only)
3. 服务器端中转方式:将html的table或是拼接的csv传到服务器端,服务器端再按照Content-Type:application/vnd.ms-excel返回,浏览器就会按excel方式处理。与服务器端拼接相比,少了一次取数 *** 作。 (all)
4. data协议方式:对于支持data协议的浏览器,可以将html或是csv先用js base64处理,然后前缀data:application/vnd.ms-excelbase64,,即可使浏览器将其中的数据当做excel来处理,浏览器将提示下载或打开excel文件,可惜的是ie不支持。extjs的官网有一个grid的plugin,实现导出xhtml格式的伪excel文件,就是这么做的。 (except IE)
浏览器端只有第一种方案导出的是真正的biff格式的excel文件,其他方式都是文本格式。activex方式只能在windows平台的ie浏览器使用,而且需要降低ie的安全性,所以应用比较有限。复杂的excel文件,还是在服务器端用poi/jxl生成excel比较好。如果浏览器固定位ie,浏览器端方式2是最好的方案。如果要降低服务器端cpu的计算压力,客户端方案3可行,而且跨平台(比poi/jxl方式少了取数和生成二进制文件)。如果是非ie浏览器,方案4也不失为一种好方法。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)