Python 爬虫 | 猿人学第一题

Python 爬虫 | 猿人学第一题,第1张

概述好久没有更新js逆向的文章了,之前分享过一个爬虫练习网站,之后我会将上面的题全部进行讲解,虽然很多公众号都有在做了,但是我还是要做,毕竟自己总结的才是最深刻的。第一题:http://match.yuanrenxue.com/match/1目录:1、环境2、分析网站3、实现爬取1、环境Python3.7、pyexec

好久没有更新Js逆向的文章了,之前分享过一个爬虫练习网站,之后我会将上面的题全部进行讲解,虽然很多公众号都有在做了,但是我还是要做,毕竟自己总结的才是最深刻的。

第一题:

http://match.yuanrenxue.com/match/1

目录:

1、环境

2、分析网站

3、实现爬取

1、环境

python3.7、pyexecJs、requests

2、分析网站

目标就是将红框中的数据进行相加

这个网站只要你一打开开发者工具就会进行无限deBUGger,让你无法调试,直接右键点击行数,选择Never pause here即可跳过

图2-2

图2-3

很容易就可以找到数据接口如图2-3,分析一下这个请求

图2-4

请求中带了一个m参数,初步一看估计是MD5加时间戳

方法一:

接下来看看这个请求的调用栈如图2-5


图2-5

进入request,看到一行无法格式化的代码,如图2-6


图2-6

方法二:

做Js逆向有多种方法可以定位加密位置,直接查看调用栈的方法对于刚接触的人不好理解,我们还可以一步步调式到加密位置。

图2-7

这个请求是xhr类型,对于xhr类型就打xhr断点

复制一部分url

xhr断点是只要网站发起的请求包含了目标字符串的就会被自动打下断点

刷新一下网站,自动打上了断点,先看旁边的调用栈,一个个看,很快就可以找到刚才的加密位置。

这行代码既然无法用开发者工具进行格式化就用其他工具,我用的网站是:http://tool.chinaz.com/tools/Jsformat.aspx?qq-pf-to=pcqq.c2c

格式化后的代码也就一百多行,大概看一遍

很快就发现了参数m的生成逻辑,

var timestamp = Date.parse(new Date()) + 100000000; var m = oo0O0(timestamp.toString()) + window.f; var List = {  "page": window.page,  "m": m + '丨' + timestamp / 1000 };

“m”由m + ‘丨’ + timestamp / 1000组成,

变量m由oo0O0(timestamp.toString()) + window.f赋值得到, window.f先不看,先查看oo0O0的逻辑,大致看一下就好了,不必每行代码都看懂

function oo0O0(mw) {   ***window\***.b = '';   for (var i = 0,       len = ***window\***.***a\***.length; i < len; i++) {     ***console\***.log(***window\***.***a\***[i]);     ***window\***.b += ***String\***[***document\***.e + ***document\***.g](***window\***.***a\***[i][***document\***.f + ***document\***.h]() - i - ***window\***.***c\***)   }   var U = ['W5r5W6VdIHZcT8kU', 'WQ8CWRaxWQirAW=='];   var J = function(o, E) {     o = o - 0x0;     var N = U[o];     if (J['bSSGte'] === undefined) {       var Y = function(w) {         var m = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMnopQRSTUVWXYZ0123456789+/=',           T = ***String\***(w)['replace'](/=+$/, '');         var A = '';         for (var C = 0x0,             b, W, l = 0x0; W = T['charat'](L++);~W && (b = C % 0x4 ? b * 0x40 + W: W, C++%0x4) ? A += ***String\***['fromCharCode'](0xff & b >> ( - 0x2 * C & 0x6)) : 0x0) {           W = m['indexOf'](W)         }         return A       };       var t = function(w, m) {         var T = [],           A = 0x0,           C,           b = '',           W = '';         w = Y(w);         for (var R = 0x0,             v = w['length']; R < v; R++) {           W += '%' + ('00' + w['charCodeAt'](R)['toString'](0x10))['slice']( - 0x2)         }         w = decodeURIComponent(W);         var l;         for (l = 0x0; l < 0x100; L++) {           T[l] = l         }         for (l = 0x0; l < 0x100; L++) {           A = (A + T[l] + m['charCodeAt'](l % m['length'])) % 0x100,             C = T[l],             T[l] = T[A],             T[A] = C         }         l = 0x0,           A = 0x0;         for (var L = 0x0; L < w['length']; L++) {           l = (l + 0x1) % 0x100,             A = (A + T[l]) % 0x100,             C = T[l],             T[l] = T[A],             T[A] = C,             b += ***String\***['fromCharCode'](w['charCodeAt'](L) ^ T[(T[l] + T[A]) % 0x100])         }         return b       };       J['luAabU'] = t,         J['qlVPZg'] = {},         J['bSSGte'] = !![]     }     var H = J['qlVPZg'][o];     return H === undefined ? (J['TUDBIJ'] === undefined && (J['TUDBIJ'] = !(N, E)], J['qlVPZg'][o] = N) : N = H,       N   };   eval(atob(***window\***['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'));   return ''

我看到eval、atob函数的时候就知道离答案不远了,eval可以运行JavaScript 字符串,atob则是关于base64的一个方法。打开开发者工具的console栏分别输入的有疑问的变量,结果如下图(我之后会出一个如何在开发者工具中就可以调试这种无法格式化的代码)

eval就是执行这一大段Js代码

eval(atob(***window\***['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'))

就可以改写为

eval(atob(***window\***['b'])['replace']("mwqqppz", '\x27' + mw + '\x27'))

将这段Js代码拿出来看看

格式化完看到了window.f在这里赋值了,并且确实是MD5加密,

var m = oo0O0(timestamp.toString()) + window.f;

oo0O0返回是空,则可以改写为

`var m = window.f`

分析到这里就可以了,把藏在eval中的Js代码扣出来

把这个MD5加密封装一下,方便python调用

3、实现爬取

import execJs import requests headers = {  'Connection': 'keep-alive',  'Pragma': 'no-cache',  'Cache-Control': 'no-cache',  'Accept': 'application/Json, text/JavaScript, */*; q=0.01',  'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',  'Host': 'match.yuanrenxue.com',  'X-Requested-With': 'XMLhttpRequest',  'Referer': 'http://match.yuanrenxue.com/match/1',  'Accept-Language': 'zh-CN,zh;q=0.9', } with open('第一题.Js', 'r', enCoding='gbk') as f:   Jstext = f.read() m = execJs.compile(Jstext).call('get_m') data = {   'page': 1,   'm': m } url = f'http://match.yuanrenxue.com/API/match/1?page=1&m={m}' response = requests.get(url, headers=headers, data=data) print(response.Json())

运行结果:

总结

以上是内存溢出为你收集整理的Python 爬虫 | 猿人学第一题全部内容,希望文章能够帮你解决Python 爬虫 | 猿人学第一题所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1188826.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存