Web Scraper教程(五)爬虫进阶之微博评论的点击「查看更多」爬取

Web Scraper教程(五)爬虫进阶之微博评论的点击「查看更多」爬取,第1张

任何事件在微博的发酵速度绝对是各大平台中最快的,如果把微博评论爬取下来,进行处理和分析,就能对某个事件的不同立场和风向有了全面的了解和掌握。

当然,评论量大的微博在爬取时耗费时间较长,为了缩短 *** 作时间,找了老罗的一条评论不太多的微博进行演示。

Sitemap name : weibo

Start URL : https://weibo.com/1640571365/J0xeHw48Y?from=page_1035051640571365_profile&wvr=6&mod=weibotime&type=comment

有些页面变化比较细微,需要仔细观察才能发现,微博评论就是这样。

在拖动滚动条至出现「查看更多」的过程中,页面出现了轻微的卡顿,这表示页面有一部分会随着用户往下浏览而加载。

在爬取数据时,如果没有建立「滚动至底部」的选择器,让卡顿的页面也完全呈现出来,则会造成程序找不到「查看更多」的情况,导致大量的数据没有被爬取。

建立「滚动至底部」选择器

Id : scroll

Type : Element scroll down

Select : 点击第1条和第2条评论最外围的方形元素

点击 Done selecting!

勾选 Multiple

点击 Save seletor 完成创建

建立点击「查看更多」选择器

Id : more

Type : Element click

点击 Selector 的 Select : 点击第1条和第2条评论最外围的方形元素

点击 Done selecting!

点击 Click selector 的 Select : 点击「查看更多」,注意点击后对话框中的内容是「a.WB_cardmore」

点击 Done selecting!

Click type : Click more,表示需要不断点击「查看更多」

Click element uniqueness : unique CSS Selector

勾选 Multiple

点击 Save seletor 完成创建

点击刚刚创建的 more 选择器,在此选择器下创建爬取评论的选择器

Id : comment

Type : Text

Select : 点击黄色方形元素中的评论

点击 Done selecting!

点击 Save seletor 完成创建

Request interval 和 Page load delay 均按默认即可

最近王和李的离婚闹得沸沸扬扬,相信大伙们都已经吃了不少的瓜。本文结合李的第一篇文章发文下面的网友们的评论来看看大家到底怎么看待这件事。

数据来自该地址: https://weibo.com/5977512966/L6w2sfDXb#comment

爬取的下面的全部评论:

微博的网页属于Ajax渲染,当我们向下滑动的时候会显示的评论,地址栏的URL不变,需要找到实际的请求URL。

1、右击【检查】,找到【Network】

2、确定每页的内容URL

这里是首页部分

滑动之后显示每页内容的URL;

3、每页的URL地址

从第二页开始的URL地址多的部分是max_id,刚好这个参数的值是前一页的返回内容:

4、介绍第一页的爬取

比如我们可以获取第一个用户的相关信息:

最终我们可以看到第一页爬取的数据展示:

参考上面的逻辑可以爬取到微博下面的全部评论

导入需要的库:

查看我们爬取到数据的基本信息,我们导入前5行数据:

基本信息:查看数据的shape形状,总共是47638行,8个字段,并且不存在缺失值。

将我们爬取到的格林威治形式的时间转成熟悉的标准化时间形式:

国内的省份中北京、广东、上海、江苏都是吃瓜的大省份!

果然:女性真的很爱吃瓜

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8054791.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存