import re
from collections import Counter
from matplotlibpyplot import pie,show
f = 'ttxt'
c = Counter(refindall(r'(\w{3,})',open(f)read()lower()))most_common(20)
pie([i[1] for i in c],labels=[i[0] for i in c])
show()
#!/usr/bin/env python3
#-- coding:utf-8 --
import os,random
#假设要读取文件名为aa,位于当前路径
filename='aatxt'
dirname=osgetcwd()
f_n=ospathjoin(dirname,filename)
#注释掉的程序段,用于测试脚本,它生成20行数据,每行有1-20随机个数字,每个数字随机1-20
'''
test=''
for i in range(20):
for j in range(randomrandint(1,20)):
test+=str(randomrandint(1,20))+' '
test+='\n'
with open(f_n,'w') as wf:
wfwrite(test)
'''
with open(f_n) as f:
s=freadlines()
#将每一行数据去掉首尾的空格和换行符,然后用空格分割,再组成一维列表
words=[]
for line in s:
wordsextend(linestrip()split(' '))
#格式化要输出的每行数据,首尾各占8位,中间占18位
def geshi(a,b,c):
return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'
#中英文混合对齐 ,参考>
你去echart官网去看,有100多种可视化图形可供你选择。统计词频也有的,你需要做的就是查看example code再把code里data改成你的data即可。当然需要import echart。
最简单的办法,不需要任何第三方库,获取网页源代码,进行正则匹配:
import
urllib,re
url
=
">
使用wordcloud库和jieba库可以使用上的效果,
这个就是将一个文本先进行分词,然后再统计每个词的词频,选出词频较高的一些词语,然后按照词频的大小设定不同的字体大小,随机生成颜色,随后形成。
以上就是关于用python找出一篇文章中词频最高的20个单词全部的内容,包括:用python找出一篇文章中词频最高的20个单词、一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非、python统计词频并进行可视化显示等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)