词云图:由python 机器学习和Jieba +spsspro绘图实现

词云图:由python 机器学习和Jieba +spsspro绘图实现,第1张

1.使用的软件
  • python

Python 3.9.12

  • Pycharm

PyCharm Community Edition 2020.2.1(其他版本pycharm也行)

  • Spsspro

spsspro(这个是一个免费的网站软件:网站链接)

2.python所需安装包
  • sklearn
    作用:用于提取文本特征值
    下载:可以在cmd命令行输入pip install sklearn 进行下载

  • jieba包
    作用:用于切分中文文本
    下载:在cmd中输入 pip install jieba

  • pandas包
    作用:处理数据
    下载:在cmd中输入pip install pandas

3.具体完整代码:

用一篇我水水水的要死 的形势政策论文为例,提取其中特征,进行词云图可视化

# coding=gbk
# 开发时间:2022/5/12 11:52
from sklearn.feature_extraction.text import CountVectorizer
import sklearn as sk
import jieba
import pandas as pd
import  numpy as np
def text_chinese_demo():
    def cut_word(data):
        # 对中文切分
        return " ".join(list(jieba.cut(data)));
    #中文文本特征提取
    with open('形势政策.txt','r') as file:
        data=file.read();
    ciyun=[]
    data_new=[];
    data=[data];
    print(data)
    for i in data:#对文本元素进行迭代切分,得到新的数据data_new
        data_new.append(cut_word(i));
    print(data_new)

    transfer = CountVectorizer(stop_words=["\n",",","。"])  # 创建一个对象
    data_new1= transfer.fit_transform(data_new);  # 转化提取特征值
    print("data_new:\n", data_new1.toarray())#输出特征值数组
    print(transfer.get_feature_names_out())#输出特征名称
    It=data_new1.toarray()
    name=transfer.get_feature_names_out();
    i=-1;
    for n in name:
        i=i+1;
        for x in range(It[0][i]):
            ciyun.append(n);
    ciyun=pd.DataFrame(ciyun)

    ciyun.to_excel(r'C:\Users188\Desktop\数据\词云图2.xlsx');
if __name__ == '__main__':
    text_chinese_demo()
#提示:只需把文本数据换成自己的文本即可
4.将提取处理后得到的数据导入到spsspro并绘图

效果:

这里是落墨,把自己学到的有用的分享给大家,希望大家用的开心!如果有问题,请多多指教,毕竟我也是没学多久的菜鸡~,谢谢大家!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/941996.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-17
下一篇 2022-05-17

发表评论

登录后才能评论

评论列表(0条)

保存