你好:
修改后的代码如下:
from bs4 import BeautifulSoupimport os
import codecs
WORK_PATH = os.path.dirname(__file__)
print WORK_PATH
print 肆如灶os.getcwd()
print os.path.abspath('.')
FILE_PATH = os.path.join(WORK_PATH,'ert.txt')
print 橡袭FILE_PATH
INPUT_PATH = os.path.join(WORK_PATH,'src.txt')
src_fl = open(INPUT_PATH,'r')
l = src_fl.read()
result_fl = open(FILE_PATH,'w')
# k = result_fl.write(l)
soup= BeautifulSoup(l,fromEncoding="gb18030")
trs=soup.findAll("string")
length=len(trs)
arr=[]
for i in range(length):
print trs[i].decode_contents()
裂扮 arr.append(trs[i].decode_contents())
print arr
for j in arr:
print j
result_fl.write(j)
result_fl.write('\n')
result_fl.close()
1、python2与python3稍微有点区别2、python2中默认的字符编码格式都是unicode,在字符串前加'u',表示unicode 编码
3、将隐告茄unicode转换成中文,只需要用deconde解灶察码就可以了
>>>u='欢迎'
>>>e=u.encode()
>>>e
b'\xe6\xac\xa2\xe8\xbf\x8e'
>>>e.decode()#python3中默认就是utf-8编码
'欢迎'
>>>e.decode('gbk')#如果解码为gbk就是友枣乱码
'娆四繋'
python2编码环境比较复杂,在这里不做详细说明
先引入urllib模块假如我们扮野要对下面的url进行转码,注意观察各种字符的变化高举
使用quote方法,进行转码
我们看看转码得到的结果:
我们想要得厅念喊到原先的url,可以使用quote的逆函数unquote
得到反转码以后的url,我们看到这种方法并没有返回中文字符。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)