词频,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。词频统计为学术研究提供了新的方法和视野。
*** 作如下:
1、选择要统计词频的文本。
2、打开文本并读取文本open("文件名.txt","r"),这里是txt=open("命运.txt","r").read()()。
3、使用循早圆环依次读取文本中的每个字符,并且替换掉文本中的换行符。
4、创建字典类型,对字符出现的次数进银滚行累加。
5、陆搏塌字典中出现的字符按照【值】的大小进行排序。
6、输出需要统计的词频的数目即可。
1.先说中文词频统计,网上有不少半成品的软件或工具,如ROST系列ROSTCM6,ROST WordParser等,还有MyZiCiFreq及Excel版本神码的“词频分析工具@Excel大全”,除此之外其他免费的词频统计软件基本就是花瓶。
2.这搏悔些软件都可以在网上下载下来。
3.其中,Rostcm6功能强大,但可惜已经不再更新。excel版本的词频统计功能简洁明了,容易上手。
4.由于目前这些免费的中文词频基瞎正统计软件大都只能统计TXT文本文档,所以如果手头是PDF之类文件的话,需要先PDF转TXT,这时候需要一些工具或技巧,可以到百度经验中搜索具体办法。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)