基于Windows安装langconv实现繁体和简体字的转换

基于Windows安装langconv实现繁体和简体字的转换,第1张

基于Windows安装langconv实现繁体和简体字的转换

在学习自然语言处理的时候,大家可能已经发现有些中文数据集是繁体字,那么当我们的任务需求是输出简体字时就需要对原始中文数据集进行字体转换,达到顺利输出的目的。

一、点击下面的链接打开对应的安装包的网页。注意:为什么要下载zh_wiki文件,原因是langconv文件内的代码需要用到(见下面第三张图)。
  • zh_wiki.py文件:zh_wiki.py文件
  • langconv.py文件:langconv.py文件



二、对应分别都点击“raw”。



三、然后分别都再右击鼠标点击“另存为…”。


四、然后d出另保存的新d框后,首先选择文件保存的路径,选择安装到你需要使用这个功能的python项目的路径(建议选择此种方式),当然不听话的你也可以随便保存到自己想放置此文件的路径(比如:博主放到“D:\Anaconda\Scripts”路径,需要时使用sys这个python库即可,见下面代码),然后将文件名去掉默认的后缀“.txt”,然后保存类型选择“所有文件”,最后点击“保存”,然后等待十秒下载完成。
import sys
from sys import path
path.append(r'D:\Anaconda\Scripts') # 项目中添加langconv文件的路径,注意要放在import前




五、复制下面代码在jupyter notebook上运行,若没有安装软件可以参考博主下面两篇文章进行安装,运行结果如下图所示则表示安装langconv实现繁体和简体字的转换成功。注意:字符串不能先进行decode解码,要先encode编码再解码,否则运行程序会报错。
  • 点击打开《Jupyter Notebook安装及使用指南》文章
  • 点击打开《Jupyter Notebook自动补全代码配置》文章
import sys
from sys import path
path.append(r'D:\Anaconda\Scripts')
from langconv import Converter
 
def simple2tradition(line):
    #将简体转换成繁体
    line = line.encode('utf-8')
    line = Converter('zh-hant').convert(line.decode('utf-8'))
    return line
 
def tradition2simple(line):
    # 将繁体转换成简体
    line = line.encode('utf-8')
    line = Converter('zh-hans').convert(line.decode('utf-8'))
    return line
str = "我是CSDN博主Rothschildlhl,欢迎大家关注我的博客,谢谢!"
str1 = simple2tradition(str)
print(str1)
str2 = tradition2simple(str1)
print(str2)

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/883597.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-14
下一篇 2022-05-14

发表评论

登录后才能评论

评论列表(0条)

保存