Python金融数据挖掘 第7章 第3节

Python金融数据挖掘 第7章 第3节 ,第1张

1、安装 (1)worldcloud词云包,下载,报错

微软忽略,线下、本地安装

(2)相关链接

python wordcloud 参数_NoOne-csdn的博客-CSDN博客_python wordcloud参数

Python中WordCloud各参数的含义_yue_xingyu的博客-CSDN博客_python中wordcloud函数

3、字体大小

(1)根据出现次数的高低,呈现不同大小

(高——大;低——小)

(2)用途

图形,可视化表示,看起来直观美观,易懂。很浅显,不能进行深度挖掘;

词云图&大数据,如QQ个性

4、制作

(1)导入包

import jieba
import jieba.analyse
from os import path
import imageio
from ipykernel import kernelapp as app
import matplotlib as mpl
import matplotlib.pyplot as plt
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

(2)读取文件

# 数据准备
# 分词,抽取词频排在前200位的词
content=open("Exp05_fenciExample.txt",'rb').read()

(3)分词

# 词频 排名 是否返回权重
# IF-IDF 词的权重计算方法,数学公式,机器语言表示(K-means,KNN 神经网络,支持向量机,

tags=jieba.analyse.extract_tags(content,topK=200,withWeight=False)
text=' '.join(tags) # 放在同一个文本中,引号中需要有空格键

4、使用词底图

# 使用词底图
# 读入事先准备好的卡通图图像文件作为词云图底图
# imread(uri)绝对路径 

# font_path:字体,电脑上存储字体的绝对位置;simsun.ttc表示宋体常规,simhei.ttf表示黑体——打开属性查看,使用英文名称
# background_color='white':背景颜色
# max_words=100:最大个数
# mask=maskImg:除全白部分不会被绘制,其余部分会用于绘制词云 
# max_font_size=120:最大字体大小
# random_state=42:
# width=1200:宽度
# height=900:高度

maskImg=imageio.imread('C:/Users/86186/Desktop/大二 下/数据挖掘/第7章/第2节 文本分析处理/FishPic.jpg')

wc=WordCloud(font_path='C:/Windows/Fonts/simhei.ttf',background_color='white',
             max_words=100,mask=maskImg,max_font_size=120,min_font_size=10,
             random_state=42,width=1200,height=900)

5、生成词云图

#生成词云图
wc.generate(text) #根据文本生成词云
image_colors=ImageColorGenerator(maskImg) #词云颜色生成器
print(image_colors)
#在窗口绘制,并输出文件
#窗口绘制的为缩略图,画质较差,请用看图软件打开wordcloud.jpg
plt.imshow(wc)
plt.axis('off')
plt.show()
wc.to_file('C:/Users/86186/Desktop/大二 下/数据挖掘/第7章/第2节 文本分析处理/WordCloud.jpg')

6、输出结果

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/905026.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-15
下一篇 2022-05-15

发表评论

登录后才能评论

评论列表(0条)

保存