微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢

微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢,第1张

微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露

S11 结束了,EDG 牛逼就完事了。

作为 Meiko 十年老粉,我看到他发了这样一条微博:

所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。

我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。

差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。

然后就是抽取分析统计了,核心的统计代码如下:

if '猫咪' in comment_content or '猫' in comment_content:
    vote_dict['猫咪'] = vote_dict.get('猫咪', 0) + 1
elif '露露' in comment_content or '璐璐' in comment_content:
    vote_dict['露露'] = vote_dict.get('露露', 0) + 1
elif '娜美' in comment_content:
    vote_dict['娜美'] = vote_dict.get('娜美', 0) + 1
else:
    vote_dict['其他'] = vote_dict.get('其他', 0) + 1

因为有一些网友可能会把露露打成璐璐,把猫咪只写成猫,所以做了一些边界 case 处理。

还有一种情况是如果评论内容同时包含露露和猫咪这两个关键词,是给露露投票还是给猫咪投票呢?我测试发现,确实有这种评论,但是只有几条,可以忽略,就不单独处理了。

把各英雄的投票数可视化如下:

最后对评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。

评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5480945.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-12
下一篇 2022-12-12

发表评论

登录后才能评论

评论列表(0条)

保存