最早知道这部影片的时候是在抖音上面看到的,说实在的基本上各大网红博主评价的主旋律都是会先说这是一部央视也点名“延续了优秀国漫基因”的高分作品,但是最后都会说到人物形象设计败笔的问题上面,距离这部影片上映已经有半月的时间了,到底怎么样?我今天用实际的一些数据来看个明白。
上面是我从豆瓣影评首页截的图,可以看到有17w左右的人参与了评价,整体评分呈现两极化的态势,目前的评分维持在8.3分左右的水平,不知道后期会是怎么样的走势,从目前的得分来看可以说还是一部高分作品的。
分析首先就是需要获取对应的数据,这里我之前的文章里面已经有实现好的爬虫可以直接拿来使用了,这里就不再多介绍了,由于客观限制的问题,数据没有办法放到文章里面来,这里也不再多介绍了,简单看下样例数据,如下所示:
接下来来看下情感极向分布图,如下所示:
可以看到,整体评论的两极化还是比较明显的,说明大家对这部高分作品是持有很大的质疑的。
得到了情感极向的数据后,我们设定了一个基础的阈值为0.5,高于该阈值的评论数据我们认为是对这部作品持有正向情感的,低于该阈值的评论数据我们认为是对这部作品持有负面情绪的,以此为划分依据,将原始的评论语料数据划分为两个情感极向的数据集。
我简单爬取了几百条的数据,这里对其分布进行了简单的可视化,如下所示:
这个结果让我一度觉得是处理错了,怎么正向的评论这么多呢?这个跟我在抖音里面看到的几乎清一色的负向情感完全不一样的感觉了,在检查过每个环节的处理代码没有问题后,我就继续了,这是只是单纯的基于数据来做一个直观的分析,不牵涉其他方面的因素。
做文本数据的分析首先想到的应该都会是词云可视化了吧,这里我也对雄狮少年的影评数据做了可视化,如下所示:
我一般做了词云之后都喜欢顺道做一下主题的挖掘计算,这里也有比较方便的实现,我主要都是基于LDA来直接计算的。下面是计算出来的主题结果:
一直觉得这个交互式的可视化还是很有意思的,可能跟我不懂前端开发有关系吧,一直都觉得界面、页面之类的东西都很有趣。
之后,我想基于这批数据做一个情感分析的文本分类任务,这也是老话题了,这里还是熟悉的组合w2v+机器学习模型,因为数据量也比较少,所以词向量模型还有机器学习等模型的训练都很快,这里也是考虑到数据量的问题没有去使用深度学习,不过在小样本数据集上面做二分类任务,常规的机器学习模型都是可以胜任的。
w2v的核心实现如下所示:
训练完成得到的模型如下所示:
到这里我们已经生成了所有样本数据的特征向量,之后就可以交由机器学习模型来进行训练学习和测试评估了,这里我主要是选取了决策树DT、支持向量机SVM和随机森林RF,这三种模型来进行整体对比分析。
计算结果如下所示:
{ "DT": { "precision": 0.6555555555555556, "recall": 0.6861702127659575, "F1": 0.6678743961352658, "accuracy": 0.6678743961352658 }, "RF": { "precision": 0.9351851851851851, "recall": 0.5625, "F1": 0.5764576457645765, "accuracy": 0.5764576457645765 }, "SVM": { "precision": 0.42727272727272727, "recall": 0.5, "F1": 0.46078431372549019, "accuracy": 0.46078431372549019 } }
对其进行可视化如下所示:
这个感觉跟样本数据的关系比较大,正负样本太不均衡了,这里的效果显示出来DT最好了,不过我这里基本没有怎么去调参数,只是为了做简单的对比。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)