4种Python爬虫(3. 微信小程序,如,超级猩猩)

4种Python爬虫(3. 微信小程序,如,超级猩猩),第1张

目录:

1. PC网页爬虫

2. H5网页爬虫

3. 微信小程序爬虫

4. 手机APP爬虫

爬取超级猩猩的课表,该平台仅提供了微信小程序这一个途径,前面两种针对html网页的爬取方式都不再适用。

采用抓包分析是我们制定方案的第一步。

我用的Mac电脑,fiddler只有一个简化版,所以另找了Charles这个类似的软件。启动Charles的代理,在手机WIFI中设置好对应的代理就可以开抓了。但是,抓到的https包的内容都是乱码,咋办?

Charles中提供了ssl证书,在手机端安装证书即可。推荐使用iPhone,直接安装描述文件即可。Android手机必须使用系统版本在7.0以下的才行,7.0以上还需要反编译什么的,太麻烦了。

很容易的定位到了超级猩猩微信小程序载入课表的后台接口。拿这个URL在浏览器里访问试试,直接返回了json结果!超级猩猩很友好!

提取对应的URL,放到浏览器中验证,也可以支持返回json包,剩下就是分析一下这个json的数据结构,按照需要的方式导出了。

直接通过接口的爬取效率非常高,几秒钟就拉取了全国各个门店的排课,相当舒心。(下图的录屏没有进行加速)

最后一个挑战就是对只有Android/iOS的APP端应用数据的爬取。请看下一章

请点击: <下一页>

目录:

1. PC网页爬虫

2. H5网页爬虫

3. 微信小程序爬虫

4. 手机APP爬虫

爬取乐刻运动手机APP的课表数据。Android和iOS都可以。

要制定具体方案,还是要从抓包分析开始。

如果你在前一章《三、微信小程序爬虫》中已经搭建好了Charles+iPhone的抓包环境,可以直接启动“乐刻APP”再来抓一波。

LefitAppium.py

LefitMitmAddon.py

接下来就是见证奇迹的时刻了!

可以看到左侧的手机已经自动跑起来了!

所有流过的数据都尽在掌握!

这个方案的适应能力非常强,不怕各种反爬虫机制。

但是如果要去爬取淘宝、携程等海量数据时,肯定也是力不从心。

爬取美团数据三个方法

一 ,App

二,网页

三,微信小程序

APP(数量最全 难度最大 反hook 反抓包 还有各种加密)网页端(数量少 但是开发简单 只要js的加密参数)微信小程序(数量合适 难度也还行)所以最后对比决定走微信小程序

模拟器一个 安装微 信 和其他的(去看我其他文章)

开始抓包 分别是这两个URL

列表URL ‘ https://wx.waimai.meituan.com/weapp/v2/poi/channelpage ’

店家详情URL ‘ https://wx.waimai.meituan.com/weapp/v1/poi/info ’

发现他和网页端都加密方式差不多都是_token (网上一大堆破解都算法 我也就不说了 )

找到一个可用的 开始地图打点,这些基本上都是常规 *** 作 我也就不说了

我说几点注意事项

一 cookie 经过我测试 cookie很少会过期 几乎不会 如果遇到提示 请登录 可以sleep一下 如果还不行 再去看一下模拟器里面是否过期 可以写一个自动登录都按键精灵


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7728803.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-09
下一篇 2023-04-09

发表评论

登录后才能评论

评论列表(0条)

保存