- python
Python 3.9.12
- Pycharm
PyCharm Community Edition 2020.2.1(其他版本pycharm也行)
- Spsspro
spsspro(这个是一个免费的网站软件:网站链接)
2.python所需安装包-
sklearn包
作用:用于提取文本特征值
下载:可以在cmd命令行输入pip install sklearn 进行下载 -
jieba包
作用:用于切分中文文本
下载:在cmd中输入 pip install jieba -
pandas包
作用:处理数据
下载:在cmd中输入pip install pandas
用一篇我水水水的要死 的形势政策论文为例,提取其中特征,进行词云图可视化
# coding=gbk
# 开发时间:2022/5/12 11:52
from sklearn.feature_extraction.text import CountVectorizer
import sklearn as sk
import jieba
import pandas as pd
import numpy as np
def text_chinese_demo():
def cut_word(data):
# 对中文切分
return " ".join(list(jieba.cut(data)));
#中文文本特征提取
with open('形势政策.txt','r') as file:
data=file.read();
ciyun=[]
data_new=[];
data=[data];
print(data)
for i in data:#对文本元素进行迭代切分,得到新的数据data_new
data_new.append(cut_word(i));
print(data_new)
transfer = CountVectorizer(stop_words=["\n",",","。"]) # 创建一个对象
data_new1= transfer.fit_transform(data_new); # 转化提取特征值
print("data_new:\n", data_new1.toarray())#输出特征值数组
print(transfer.get_feature_names_out())#输出特征名称
It=data_new1.toarray()
name=transfer.get_feature_names_out();
i=-1;
for n in name:
i=i+1;
for x in range(It[0][i]):
ciyun.append(n);
ciyun=pd.DataFrame(ciyun)
ciyun.to_excel(r'C:\Users188\Desktop\数据\词云图2.xlsx');
if __name__ == '__main__':
text_chinese_demo()
#提示:只需把文本数据换成自己的文本即可
4.将提取处理后得到的数据导入到spsspro并绘图
效果:
这里是落墨,把自己学到的有用的分享给大家,希望大家用的开心!如果有问题,请多多指教,毕竟我也是没学多久的菜鸡~,谢谢大家!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)