如何用哔哩哔哩齐站视频快速攀爬
我想b站的人应该都很熟悉吧。其实b站的爬虫网一直在搜索很多东西。不行,我得去论文结尾,觉得自己浅薄。我知道这件事必须停止,所以我正在做。最终总数据输出达到760万条。
完成人:chenjiandongx的由来:知乎问答|2017-11-1719:56移动收藏与分享TechNeo艺术沙龙|11月25日九州云/ZStack将与您探讨云阶段收藏空隙的应用基础理论。
我想b站的人应该都很熟悉吧。其实b站的爬虫网一直在搜索很多东西。不行,我得去论文结尾,觉得自己浅薄。我知道这件事必须停止,所以我正在做。最终总数据输出达到760万条。
准备
先打开末尾的b站,随便找个末页的视频打出来。总控,打开先锋物品。这次的目的是通过b站提供的api抓取全程视频信息,不需要解析网页,解析网页速度太慢容易启动ip。
启用JS选项,F5创新
找到api的地址
构建它,去掉你需要的,得到https://api.bilibili.com/x/web-interface/archive/stat?.Aid=15906633,用阅读软件打开,你会得到下面的json数据
下部手写代码
好的,你可以在那里编码,数据可以通过请求的全过程进行更新。为了使网络爬虫更加有效,可以控制线程同步。
管理中心代码
Result=[]req=requests.get(URL,headers=headers,ss="superseo">ss="superseo">timeout=6)。json()time.sleep(0.6)#提前劝阻ip开启过快。try:data=req['data']video=video(数据['aid'],#视频序列号数据['view'],#播放量数据['danmaku'],#视频d幕号数据['reply'],#指责数据['favorite'],#收藏数据['coin'],#coin数据['share']#共享号)带锁:结果。附加(视频)除外:通过
迭代爬行和更新
URLs=["http://API.bilibili.com/archive_stat/stat?Aid={}”。格式(I)为Iin范围(10000)]与期货。作为执行器的线程池执行器(32):#线程同步执行器.map(run,urls)
没有一次性抓取和部分连接。我控制两个进程,这意味着多进程线程同步。一个进程一次爬升大约50w条数据。100w条数据要一个多小时。经常抓取并把数据分离到不同的文件夹名中,然后在开头进行汇总。
如果 *** 作结果大的话,之前已经用几个连接爬取了数据,真的很详细,一天两天左右就能完成。
爬山后如何处理突发事件,取决于我的爱好。我先将其保存为csv文档,然后将其插入数据库。
csv文档摘要
数据库表
因为这些内容是我几个月前爬的,数据有点落后。
总输出数据
查看十大视频。
查看振兴十大视频。
查各种招数供你选择!!视频连接是https://www.bilibili.com/video/avv_aid。
其实请把场景换成bili.py
如果你对数据感兴趣,你可以通过邮件联系我,你可以得到它作为礼物。
新项目地址:chenjiandongx/毕丽-蜘蛛鉴赏圈vfghjklp]78
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)