在学习自然语言处理的时候,大家可能已经发现有些中文数据集是繁体字,那么当我们的任务需求是输出简体字时就需要对原始中文数据集进行字体转换,达到顺利输出的目的。
一、点击下面的链接打开对应的安装包的网页。注意:为什么要下载zh_wiki文件,原因是langconv文件内的代码需要用到(见下面第三张图)。- zh_wiki.py文件:zh_wiki.py文件
- langconv.py文件:langconv.py文件
import sys
from sys import path
path.append(r'D:\Anaconda\Scripts') # 项目中添加langconv文件的路径,注意要放在import前
- 点击打开《Jupyter Notebook安装及使用指南》文章
- 点击打开《Jupyter Notebook自动补全代码配置》文章
import sys
from sys import path
path.append(r'D:\Anaconda\Scripts')
from langconv import Converter
def simple2tradition(line):
#将简体转换成繁体
line = line.encode('utf-8')
line = Converter('zh-hant').convert(line.decode('utf-8'))
return line
def tradition2simple(line):
# 将繁体转换成简体
line = line.encode('utf-8')
line = Converter('zh-hans').convert(line.decode('utf-8'))
return line
str = "我是CSDN博主Rothschildlhl,欢迎大家关注我的博客,谢谢!"
str1 = simple2tradition(str)
print(str1)
str2 = tradition2simple(str1)
print(str2)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)