用Python对用户的评论数据进行情感倾向分析_软件运维

本文可以学习到以下内容：

数据及源码地址： https://gitee.com/myrensheng/data_analysis

小凡，用户对耐段耳机商品的评论信息，饥亩灶你有没有什么好的办法分析一下？经理来向小凡请教问题。

嗯，小凡想了一会儿......

我想到了两种分析方法：

经理听完，甚是欣慰，便让小凡着手分析用户的评论数据。

数据烂扮解释：

小凡使用百度飞浆（paddlepaddle）模型库中的情感分析模型，将评论数据（content）转化为情感类别【积极1，消极0】

一、window10+anaconda3的安装命令：

二、安装预训练模型应用工具 PaddleHub

可以看到，大约 60% 的用户给出好评

用户的评论内容多集中在配置、音质等主题上

这里使用百度飞浆的LAC分词模型

分析结束后，小凡总结出以下结论：

小凡将结论汇报给经理，和经理一起想出一个可行的方案解决目前存在的问题。

由于语料缺乏，前期若使用到情感分析，建议暂时粗颂游使用SnowNLP（此模块主要使用淘宝评论语料）做情感挖掘，但不仅仅为单纯调用，需要优化，下面是一些实践思考：

可在此基础上优化，比如文本需要特别处理，除了平常的去停用词外，还可以需要对输入的文本结合词性等进行处理。

下面是一些常识：

一）无情感的词语(如去停用词，去掉语气词，无词性标签的词语）

二）对于文本过长，则可以考虑提取关键词或抽取文本摘要后再提取关键词

对于后者实践结果差异明显：

以"发布了头条文章： 《5分钟11亿！京东双11场景化产品消费增长明显》 5分钟11亿！京东双11场景化产品消费增长明显 "为例子， 显然该文本为“积极****”文本。

1）s = SnowNLP（"发布了头条文章：《5分钟11亿！京东双11场景化产品消费增长明显》 5分钟11亿！京东双11场景化产品消费增长明显"）

得分为0.5，明显不岩销符合

2）s = SnowNLP（“ ”.join(jieba.analyse.textrank("发布了头条文章：《5分钟11亿！京东双11场景化产品消费增长明显》 5分钟11亿！京东双11场景化产品消费增长明显")))

而对于文本特别长的，则可以先抽取摘要，再对摘要提取关键词。

这主要由于此SnowNLP主要用贝叶斯机器学习方法进行训练文本，机器学习在语料覆盖上不够，特征上工程处理不当会减分，也没考虑语义等。

为何要考虑语义层面：

以“ 苏宁易购，是谁给你们下架OV的勇气****” 中的“ 下架”其实才是中心词（为樱派表达愤怒的文本），但“ 勇气 ”为下架的宾语（其为积极的文本），此句应该结果小于0.5，但实际为0.88，去掉“苏宁易购”则为0.6>

Python 有良好的程序包可以进行情感分类，那就哪镇手是Python 自然语言处理包，Natural Language Toolkit ，简称NLTK 。NLTK 当然不只是处旅物理情感分李嫌析，NLTK 有着整套自然语言处理的工具，从分词到实体识别，从情感分类到句法分析，完整而丰富，功能强大。

欢迎分享，转载请注明来源：内存溢出

用Python对用户的评论数据进行情感倾向分析