S11 结束了,EDG 牛逼就完事了。
作为 Meiko 十年老粉,我看到他发了这样一条微博:
所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。
我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。
差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。
然后就是抽取分析统计了,核心的统计代码如下:
if '猫咪' in comment_content or '猫' in comment_content: vote_dict['猫咪'] = vote_dict.get('猫咪', 0) + 1 elif '露露' in comment_content or '璐璐' in comment_content: vote_dict['露露'] = vote_dict.get('露露', 0) + 1 elif '娜美' in comment_content: vote_dict['娜美'] = vote_dict.get('娜美', 0) + 1 else: vote_dict['其他'] = vote_dict.get('其他', 0) + 1
因为有一些网友可能会把露露打成璐璐,把猫咪只写成猫,所以做了一些边界 case 处理。
还有一种情况是如果评论内容同时包含露露和猫咪这两个关键词,是给露露投票还是给猫咪投票呢?我测试发现,确实有这种评论,但是只有几条,可以忽略,就不单独处理了。
把各英雄的投票数可视化如下:
最后对评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。
评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)