用python找出一篇文章中词频最高的20个单词_框架

import re

from collections import Counter

from matplotlibpyplot import pie,show

f = 'ttxt'

c = Counter(refindall(r'(\w{3,})',open(f)read()lower()))most_common(20)

pie([i[1] for i in c],labels=[i[0] for i in c])

show()

#!/usr/bin/env python3

#-- coding:utf-8 --

import os,random

#假设要读取文件名为aa，位于当前路径

filename='aatxt'

dirname=osgetcwd()

f_n=ospathjoin(dirname,filename)

#注释掉的程序段，用于测试脚本，它生成20行数据，每行有1-20随机个数字，每个数字随机1-20

'''

test=''

for i in range(20):

for j in range(randomrandint(1,20)):

test+=str(randomrandint(1,20))+' '

test+='\n'

with open(f_n,'w') as wf:

wfwrite(test)

'''

with open(f_n) as f:

s=freadlines()

#将每一行数据去掉首尾的空格和换行符，然后用空格分割，再组成一维列表

words=[]

for line in s:

wordsextend(linestrip()split(' '))

#格式化要输出的每行数据，首尾各占8位，中间占18位

def geshi(a,b,c):

return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'

#中英文混合对齐，参考>

你去echart官网去看，有100多种可视化图形可供你选择。统计词频也有的，你需要做的就是查看example code再把code里data改成你的data即可。当然需要import echart。

最简单的办法，不需要任何第三方库，获取网页源代码，进行正则匹配：

import

urllib,re

url

使用wordcloud库和jieba库可以使用上的效果，

这个就是将一个文本先进行分词，然后再统计每个词的词频，选出词频较高的一些词语，然后按照词频的大小设定不同的字体大小，随机生成颜色，随后形成。

以上就是关于用python找出一篇文章中词频最高的20个单词全部的内容，包括:用python找出一篇文章中词频最高的20个单词、一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非、python统计词频并进行可视化显示等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/web/9510699.html

用python找出一篇文章中词频最高的20个单词

发表评论

评论列表（0条）