要做词云图首先要知道数据中有哪些词,每种词的频率是多少,所以首先我们要对文本数据进行分词和统计频次,在R中,分词要用到Rwordseg包。我们可以对生成的datas处理一下,如用summary函数查看数据频次结果,包括频次最大值,最小值,中位数,3分位数,均值等,也可删除一些觉得无关紧要的单词,剔除一些频次太低的单词。最后,直接用wordcloud2对datas数据生成文字云图。qq怎么弄关键字云图
第三方词云工具固然方便,但是使用起来也是各种问题(如中文乱码、词云形状、字体颜色调整等等)。我和大家分享一下如何使用 R 语言的 jiebaR 和 wordcloud2 扩展包来完成中文文本(英文当然不在话下)的分词,并且绘制关键词词云。
0前期准备
准备1:安装 R ,你可以前往 The Comprehensive R Archive Network 下载并安装程序。
准备2:把你需要分词的文本放在一个 txt 文件中(强调:务必是 txt 格式!)。(你可以使用爬虫获取这部分文本,或者手动复制粘贴得到文本信息)
1中文分词
分词是绘制词云的基础,说得简单一点就是将中文文本分割成一个个词汇。举个例子,我们现在按照XX算法对句子“ 对公司相关运营数据进行提取、多维度分析和整理”进行分词,得到如下结果:
对、公司、相关、运营数据、进行提取、多维度、分析、和、整理
只有进行了分词,才可以进行词云的绘制;如果你已经完成了这一步,并且统计出了每一个词汇的频数,可以直接略过这一步。
我们用 R语言的 jiebaR 包实现上述 *** 作,如下:
1)安装并加载 jiebaR 包
installpackages("jiebaR") library(jiebaR)
2)导入原始文本
f<-scan('/Users/XXX/Desktop/数据运营JDtxt',sep='\n',what='',encoding="UTF-8")
需要注意的是 /Users/XXX/Desktop/数据运营JDtxt 应该是你的txt文件的路径,不要直接copy。
3)开始分词
分词有很多种算法,其原理不是我们要关注的重点
seg<-qseg[f]
4)分词处理
因为分词出来可能会有很多常见的词汇,但是没啥用的,比如“的”、“是”、“什么”一类的。我们需要将这个词汇屏蔽掉。同时特别长的词汇这里我们也不要。
我的做法是将字符数控制在3-16之间,也就是最多4个汉字(1个汉字=4个字符),最少3个英文。
seg<-seg[nchar(seg)>2]
seg<-seg[nchar(seg)<17]
seg
这个时候分词结果,也就是 seg 可以显示在你的R程序上,如下图所示:
5)对分词进行转置
为了方便后面的处理,我们需要对 seg 进行一次转置(把横着放变成竖着放)
m1<-dataframe(seg)
2统计词频
完成分词后,你需要统计每一个词出现的频数,比如“ 数据分析 10 ”这样的。
1)加载 sqldf 包
installpackages("sqldf")
library(sqldf)
2)统计词频
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)