爬虫--cookies,防盗链

爬虫--cookies,防盗链,第1张

import requests
# session 相当于一个会话,他会记录。


session =requests.session()

所以我们需要找到他需要登陆的那个url,得到cookies数据,比如我们需要登录一个小说,因此我们找到了他应该登录网页的那个url_1。


data = {
    "loginName": "你的用户名",
    "password": "你的密码"
}

session.post(url_1,data=data)

给他放进去,此时已经记录,因此找到我们需要的那个url_2

resp = session.get(url_2)

此时我们,可以进入去提取我们需要的数据

还有一个暴力的方法,是直接在headers中加cookies,但是不建议。


--------------------------------------------------------------------------------------------------------------------------------

         防盗链其实他的意思应该大概是,提取到的网页数据中我们所获得的数据打开并不是我们想要的,而他是进行了修改,真正的url是进行拼接得到的

# true src=   "https://video.pearvideo.com/mp4/adshort/20220329/cont-1756802-15852601_adpkg-ad_hd.mp4"
# false srcUrl:"https://video.pearvideo.com/mp4/adshort/20220329/1648610595090-15852601_adpkg-ad_hd.mp4"

看看他们的不同点,很明显可以看出有不同,所以我们要在源码中提取到我们需要的东西进行拼接。


还有一个东西就是,可以在headers中加入,有的反爬会用到

"Referer": url

#Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理。


注:目前学习尚浅,如有不对请多多提出

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/571433.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-09
下一篇 2022-04-09

发表评论

登录后才能评论

评论列表(0条)

保存