用python找出一篇文章中词频最高的20个单词

用python找出一篇文章中词频最高的20个单词,第1张

import re

from collections import Counter

from matplotlibpyplot import pie,show

f = 'ttxt'

c = Counter(refindall(r'(\w{3,})',open(f)read()lower()))most_common(20)

pie([i[1] for i in c],labels=[i[0] for i in c])

show()

#!/usr/bin/env python3

#-- coding:utf-8 --

import os,random

#假设要读取文件名为aa,位于当前路径

filename='aatxt'

dirname=osgetcwd()

f_n=ospathjoin(dirname,filename)

#注释掉的程序段,用于测试脚本,它生成20行数据,每行有1-20随机个数字,每个数字随机1-20

'''

test=''

for i in range(20):

    for j in range(randomrandint(1,20)):

        test+=str(randomrandint(1,20))+' '

    test+='\n'

with open(f_n,'w') as wf:

    wfwrite(test)

'''

with open(f_n) as f:

    s=freadlines()

#将每一行数据去掉首尾的空格和换行符,然后用空格分割,再组成一维列表

words=[]

for line in s:

    wordsextend(linestrip()split(' '))

#格式化要输出的每行数据,首尾各占8位,中间占18位

def geshi(a,b,c):

    return alignment(str(a))+alignment(str(b),18)+alignment(str(c))+'\n'

#中英文混合对齐 ,参考>

你去echart官网去看,有100多种可视化图形可供你选择。统计词频也有的,你需要做的就是查看example code再把code里data改成你的data即可。当然需要import echart。

最简单的办法,不需要任何第三方库,获取网页源代码,进行正则匹配:

import

urllib,re

url

=

">

使用wordcloud库和jieba库可以使用上的效果,

这个就是将一个文本先进行分词,然后再统计每个词的词频,选出词频较高的一些词语,然后按照词频的大小设定不同的字体大小,随机生成颜色,随后形成。

以上就是关于用python找出一篇文章中词频最高的20个单词全部的内容,包括:用python找出一篇文章中词频最高的20个单词、一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非、python统计词频并进行可视化显示等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9510699.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存