python爬虫系列(2.2-requests库的高级使用)

python爬虫系列(2.2-requests库的高级使用),第1张

概述一、设置代理ip1、直接在请求的时候加上proxies就可以,注意我们一般会写上http和https的,这样当遇到http请求就会走http字典对应的代理2、具体代码importrequestsif__name__=="__main__":#定义一个请求头(模拟浏览器)headers={'User-Agent': 一、设置代理ip

1、直接在请求的时候加上proxIEs就可以,注意我们一般会写上httphttps的,这样当遇到http请求就会走http字典对应的代理

2、具体代码

import requestsif __name__ == "__main__":    # 定义一个请求头(模拟浏览器)    headers = {        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'}    # 定义代理的字典(可以去http://www.xicIDaili.com查找最新的代理)    proxIEs = {        'http': 'http://115.223.223.29:9000',        'https': 'https://197.232.21.141:59075'    }    response = requests.get('http://httpbin.org/get', headers=headers, proxIEs=proxIEs)    response.enCoding = 'utf-8'    print(response.text)
二、关于requests库 *** 作cookie

1、从网站上获取cookie

import requestsif __name__ == "__main__":    # 定义一个请求头(模拟浏览器)    headers = {        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'}    response = requests.get('https://www.baIDu.com', headers=headers)    # 迭代出全部的    for k, v in response.cookies.items():        print(k, '===', v)    print(response.cookies)    print(response.cookies.get_dict())

2、使用session会话存储当前网上的cookies

import requestsif __name__ == "__main__":    url = 'https://www.lagou.com/jobs/positionAJAX.Json?needAddtionalResult=false'    headers = {        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36',        'Referer': 'https://www.lagou.com/jobs/List_python?labelWords=&fromSearch=true&suginput='    }    data = {        'first': 'true',        'pn': '1',        'kd': 'python',    }    # 使用session包装下    session = requests.session()    response = session.post(url=url, headers=headers, data=data)    print(response.Json())
三、不安全证书网站的请求(12306是最典型的)

1、只需要在请求的时候加上verify=False就可以

2、具体代码

import requestsif __name__ == "__main__":    # 定义一个请求头(模拟浏览器)    headers = {        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'}    response = requests.get('http://www.12306.cn/mormhweb/', headers=headers, verify=False)    response.enCoding = 'utf-8'    print(response.text)
四、更多关于博主文章请访问 总结

以上是内存溢出为你收集整理的python爬虫系列(2.2-requests库的高级使用)全部内容,希望文章能够帮你解决python爬虫系列(2.2-requests库的高级使用)所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1184807.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存