手机如何爬取网页视频

手机如何爬取网页视频,第1张

如何快速爬取B站全站视频信息

如何用哔哩哔哩齐站视频快速攀爬

我想b站的人应该都很熟悉吧。其实b站的爬虫网一直在搜索很多东西。不行,我得去论文结尾,觉得自己浅薄。我知道这件事必须停止,所以我正在做。最终总数据输出达到760万条。

完成人:chenjiandongx的由来:知乎问答|2017-11-1719:56移动收藏与分享TechNeo艺术沙龙|11月25日九州云/ZStack将与您探讨云阶段收藏空隙的应用基础理论。

我想b站的人应该都很熟悉吧。其实b站的爬虫网一直在搜索很多东西。不行,我得去论文结尾,觉得自己浅薄。我知道这件事必须停止,所以我正在做。最终总数据输出达到760万条。

准备

先打开末尾的b站,随便找个末页的视频打出来。总控,打开先锋物品。这次的目的是通过b站提供的api抓取全程视频信息,不需要解析网页,解析网页速度太慢容易启动ip。

启用JS选项,F5创新

找到api的地址

构建它,去掉你需要的,得到https://api.bilibili.com/x/web-interface/archive/stat?.Aid=15906633,用阅读软件打开,你会得到下面的json数据

下部手写代码

好的,你可以在那里编码,数据可以通过请求的全过程进行更新。为了使网络爬虫更加有效,可以控制线程同步。

管理中心代码

Result=[]req=requests.get(URL,headers=headers,ss="superseo">ss="superseo">timeout=6)。json()time.sleep(0.6)#提前劝阻ip开启过快。try:data=req['data']video=video(数据['aid'],#视频序列号数据['view'],#播放量数据['danmaku'],#视频d幕号数据['reply'],#指责数据['favorite'],#收藏数据['coin'],#coin数据['share']#共享号)带锁:结果。附加(视频)除外:通过

迭代爬行和更新

URLs=["http://API.bilibili.com/archive_stat/stat?Aid={}”。格式(I)为Iin范围(10000)]与期货。作为执行器的线程池执行器(32):#线程同步执行器.map(run,urls)

没有一次性抓取和部分连接。我控制两个进程,这意味着多进程线程同步。一个进程一次爬升大约50w条数据。100w条数据要一个多小时。经常抓取并把数据分离到不同的文件夹名中,然后在开头进行汇总。

如果 *** 作结果大的话,之前已经用几个连接爬取了数据,真的很详细,一天两天左右就能完成。

爬山后如何处理突发事件,取决于我的爱好。我先将其保存为csv文档,然后将其插入数据库。

csv文档摘要

数据库表

因为这些内容是我几个月前爬的,数据有点落后。

总输出数据

查看十大视频。

查看振兴十大视频。

查各种招数供你选择!!视频连接是https://www.bilibili.com/video/avv_aid。

其实请把场景换成bili.py

如果你对数据感兴趣,你可以通过邮件联系我,你可以得到它作为礼物。

新项目地址:chenjiandongx/毕丽-蜘蛛鉴赏圈vfghjklp]78

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/768676.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-02
下一篇 2022-05-02

发表评论

登录后才能评论

评论列表(0条)

保存