import requests
# session 相当于一个会话,他会记录。
session =requests.session()
所以我们需要找到他需要登陆的那个url,得到cookies数据,比如我们需要登录一个小说,因此我们找到了他应该登录网页的那个url_1。
data = {
"loginName": "你的用户名",
"password": "你的密码"
}
session.post(url_1,data=data)
给他放进去,此时已经记录,因此找到我们需要的那个url_2
resp = session.get(url_2)
此时我们,可以进入去提取我们需要的数据
还有一个暴力的方法,是直接在headers中加cookies,但是不建议。
--------------------------------------------------------------------------------------------------------------------------------
防盗链其实他的意思应该大概是,提取到的网页数据中我们所获得的数据打开并不是我们想要的,而他是进行了修改,真正的url是进行拼接得到的
# true src= "https://video.pearvideo.com/mp4/adshort/20220329/cont-1756802-15852601_adpkg-ad_hd.mp4"
# false srcUrl:"https://video.pearvideo.com/mp4/adshort/20220329/1648610595090-15852601_adpkg-ad_hd.mp4"
看看他们的不同点,很明显可以看出有不同,所以我们要在源码中提取到我们需要的东西进行拼接。
还有一个东西就是,可以在headers中加入,有的反爬会用到
"Referer": url
#Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理。
”
注:目前学习尚浅,如有不对请多多提出
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)