python转码的问题

临沧市一中 • 2023-5-22 • 教程 • 阅读 19

你好：

修改后的代码如下：

from bs4 import BeautifulSoup

import os

import codecs

WORK_PATH = os.path.dirname(__file__)

print WORK_PATH

print 肆如灶os.getcwd()

print os.path.abspath('.')

FILE_PATH = os.path.join(WORK_PATH,'ert.txt')

print 橡袭FILE_PATH

INPUT_PATH = os.path.join(WORK_PATH,'src.txt')

src_fl = open(INPUT_PATH,'r')

l = src_fl.read()

result_fl = open(FILE_PATH,'w')

# k = result_fl.write(l)

soup= BeautifulSoup(l,fromEncoding="gb18030")

trs=soup.findAll("string")

length=len(trs)

arr=[]

for i in range(length):

print trs[i].decode_contents()

裂扮 arr.append(trs[i].decode_contents())

print arr

for j in arr:

print j

result_fl.write(j)

result_fl.write('\n')

result_fl.close()

1、python2与python3稍微有点区别

2、python2中默认的字符编码格式都是unicode,在字符串前加'u'，表示unicode 编码

3、将隐告茄unicode转换成中文，只需要用deconde解灶察码就可以了

>>>u='欢迎'

>>>e=u.encode()

>>>e

b'\xe6\xac\xa2\xe8\xbf\x8e'

>>>e.decode()#python3中默认就是utf-8编码

'欢迎'

>>>e.decode('gbk')#如果解码为gbk就是友枣乱码

'娆四繋'

python2编码环境比较复杂，在这里不做详细说明

先引入urllib模块

假如我们扮野要对下面的url进行转码，注意观察各种字符的变化高举

使用quote方法，进行转码

我们看看转码得到的结果：

我们想要得厅念喊到原先的url，可以使用quote的逆函数unquote

得到反转码以后的url，我们看到这种方法并没有返回中文字符。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12237751.html

字符中文都是就是在这里

打赏

微信扫一扫

支付宝扫一扫

临沧市一中一级用户组

清除网卡中ip缓存Windows7

上一篇 2023-05-22

shell 中怎么将一个文件复制到另一个文件

下一篇 2023-05-22

发表评论

登录后才能评论

评论列表（0条）