python转码的问题

python转码的问题,第1张

你好:

修改后的代码如下:

from bs4 import BeautifulSoup

import os

import codecs

WORK_PATH = os.path.dirname(__file__)

print WORK_PATH

print 肆如灶os.getcwd()

print os.path.abspath('.')

FILE_PATH = os.path.join(WORK_PATH,'ert.txt')

print 橡袭FILE_PATH

INPUT_PATH = os.path.join(WORK_PATH,'src.txt')

src_fl = open(INPUT_PATH,'r')

l = src_fl.read()

result_fl = open(FILE_PATH,'w')

# k = result_fl.write(l)

soup= BeautifulSoup(l,fromEncoding="gb18030")

trs=soup.findAll("string")

length=len(trs)

arr=[]

for i in range(length):

    print trs[i].decode_contents()

  裂扮  arr.append(trs[i].decode_contents())

print arr

for j in arr:

print j

result_fl.write(j)

result_fl.write('\n')

result_fl.close()

1、python2与python3稍微有点区别

2、python2中默认的字符编码格式都是unicode,在字符串前加'u',表示unicode 编码

3、将隐告茄unicode转换成中文,只需要用deconde解灶察码就可以了

>>>u='欢迎'

>>>e=u.encode()

>>>e

b'\xe6\xac\xa2\xe8\xbf\x8e'

>>>e.decode()#python3中默认就是utf-8编码

'欢迎'

>>>e.decode('gbk')#如果解码为gbk就是友枣乱码

'娆四繋'

python2编码环境比较复杂,在这里不做详细说明

先引入urllib模块

假如我们扮野要对下面的url进行转码,注意观察各种字符的变化高举

使用quote方法,进行转码

我们看看转码得到的结果:

我们想要得厅念喊到原先的url,可以使用quote的逆函数unquote

得到反转码以后的url,我们看到这种方法并没有返回中文字符。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12237751.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-22
下一篇 2023-05-22

发表评论

登录后才能评论

评论列表(0条)

保存