输入代码:
!pip install requests
点击运行:
安装成功!
二、学爬虫必备知识python基础:https://blog.csdn.net/weixin_46211269/category_11313211.html
(转载自@川川大佬)
三、requests体验以百度为例:
import requests r = requests.get('https://www.baidu.com/') print(type(r)) print(r.status_code) print(type(r.text)) print(r.text) print(r.cookies)
打印结果:
得到一个 Response 对象,然后分别输出了 Response 的类型、状态码、响应体的类型、内容以及 cookies。在这里仅仅是体验,我并看不懂,川川告诉我没有关系。
四、get 请求 4.1 基础一现在以百度为例:
https://www.baidu.com/
用get请求网址,打印txt,获取百度页面源码:
import requests r = requests.get('https://www.baidu.com/') print(r.text)
百度不会反扒,下面演示扒川川的博客:
https://chuanchuan.blog.csdn.net/article/details/120741416
返回为空,说明有反扒。
4.2 基础二直接使用requests模块的get函数直接来获取(get和urlopen是相同的),主要是这个更方便:
import requests u=requests.get('https://mp.csdn.net/console/article') print(u.status_code)#打印状态码 print(u.text)#打印文本 print(u.cookies)#打印cookie
运行:
再有:
import requests r=requests.post('https://www.csdn.net/?spm=1011.2124.3001.5359') s=requests.put('https://www.csdn.net/?spm=1011.2124.3001.5359') print(r.status_code) print(r.text) print(s.status_code) print(s.text)
运行结果:
(虽然请求失败但不影响,主要是介绍下用requests模块的话,可以很简单的方式请求,比如说put,post,delete这些之间换一下就换了一个请求方法。这里请求失败因为我们被反扒了。 )
4.3 基础三首先,构建一个最简单的 GET 请求,请求的链接为 http://httpbin.org/get,该网站会判断如果客户端发起的是 GET 请求的话,它返回相应的请求信息.
代码:
import requests r = requests.get('http://httpbin.org/get') print(r.text)
成功发起了 GET 请求,返回结果中包含请求头、URL、IP 等信息。
那么,对于 GET 请求,如果要附加额外的信息,一般怎样添加呢?比如现在想添加两个参数,其中 name 是 germey,age 是 22。要构造这个请求链接,是不是要直接写成:
r = requests.get('http://httpbin.org/get?name=germey&age=22')
这同样很简单,利用 params 这个参数就好了,示例如下:
import requests data = { 'name': 'germey', 'age': 22 } r = requests.get("http://httpbin.org/get", params=data) print(r.text)
通过返回信息我们可以判断,请求的链接自动被构造成了:
http://httpbin.org/get?age=22&name=germey
所以同样的可以:
另外,网页的返回类型实际上是 str 类型,但是它很特殊,是 JSON 格式的。所以,如果想直接解析返回结果,得到一个字典格式的话,可以直接调用 json 方法。示例如下:
import requests r = requests.get("http://httpbin.org/get") print(type(r.text)) print(r.json()) print(type(r.json()))
可以发现,调用 json 方法,就可以将返回结果是 JSON 格式的字符串转化为字典。
4.4 获取cookieimport requests headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36' }#请求头 url='https://www.csdn.net/?spm=1011.2124.3001.5359' r=requests.get(url=url,headers=headers) print(r.cookies)#直接打印
运行:
4.5 获取请求头手动获取:
点击右键,选择检查,再选择network,刷新一下,随机选其中一个内容,如下:
我们也可以通过 headers 参数来传递头信息。比如,在下面我们的面 “知乎” 的例子中,如果不传递 headers,就不能正常请求,请求结果为403:
import requests r = requests.get("https://www.zhihu.com/explore") print(r.text)
运行:
但如果加上 headers 并加上 User-Agent 信息,那就没问题了:
import requests headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' } r = requests.get("https://www.zhihu.com/explore", headers=headers) print(r.text)
运行:
可以看到加请求头成功了。
为什么加请求头?可以模拟正常浏览器,防止被反扒。
先获取cookies:
import requests headers={ 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11' } url='http://www.zhihu.com' r=requests.get(url=url,headers=headers) print(r.cookies)
运行:
或者登录知乎,找到cookie:
用这里的cookie来获取网页:
import requests headers={ 'cookie':'_zap=f4cf1039-988d-4506-86b0-4a66e741c6b1; d_c0="AGDcaFGHGRKPTutiDmNxGnxfi7VhsfQ0wI8=|1603730839"; _xsrf=01xnSvUI1MkWP715R02yeXnThs2EHIXu; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1610911317,1611507538,1611565882,1611566000; SESSIonID=EQPbneOhTXEKEWzoKhctFGCvXtNsbB6hgyaptDJMHfy; JOID=UFoUAUOmDkyYr9xFaaZkkCC9KVZ441wf8Mu5CQL4VgrQ4IE_BWQiVfil30VgxKKpzSBYFUbBpzXzd2z2Km1WeDs=; osd=WloUBkysDkyfoNZFaaFrmiC9Llly41wY_8G5CQX3XArQ5441BWQlWvKl30JvzqKpyi9SFUbGqD_zd2v5IG1WfzQ=; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1611673785; capsion_ticket="2|1:0|10:1611673806|14:capsion_ticket|44:N2ExMGExOTQ3YWIwNGE1YzliMTc1Mzk0ZmEwMjAyYTE=|5aecaa59c17c237af06b47a7b1402eb5b996139c8a6e1d15490899fab3c17108"; KLBRSID=031b5396d5ab406499e2ac6fe1bb1a43|1611673848|1611672766; z_c0="2|1:0|10:1611673849|4:z_c0|92:Mi4xUkFJd0lnQUFBQUFBWU54b1VZY1pFaVlBQUFCZ0FsVk4tWDc5WUFCQmZYWFB4ZkM5Z3l6ZlRNSENUUHVhR0lmYy1B|6d89241fc554ad378bce7f27715f2a4cc63cf87028c2da1e4104423b99ee14ee"; unlock_ticket="APBUrbfKXhImAAAAYAJVTQE4EGCaxoSZiXGfIktWFZReL6J3wOaKOQ=="', 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11', 'host':'www.zhihu.com', } url='http://www.zhihu.com' r=requests.get(url=url,headers=headers) print(r.text)
运行:
返回结果有知乎里的相关内容,这样就是成功登录知乎了
再提一点session,它可以实现同一个站点进去不同页面:
import requests s=requests.Session() s.get('http://httpbin.org/cookies/set/number/147258369') r=s.get('http://httpbin.org/cookies') print(r.text)
运行:
4.8 抓取二进制数据 如果想抓取图片、音频、视频等文件,应该怎么办呢?
图片、音频、视频这些文件本质上都是由二进制码组成的,由于有特定的保存格式和对应的解析方式,我们才可以看到这些形形色色的多媒体。所以,想要抓取它们,就要拿到它们的二进制码。
下面以 GitHub 的站点图标为例来看一下:
import requests r = requests.get("https://github.com/favicon.ico") print(r.text) print(r.content)
运行:
可以注意到,前者出现了乱码,后者结果前带有一个 b,这代表是 bytes 类型的数据。由于图片是二进制数据,所以前者在打印时转化为 str 类型,也就是图片直接转化为字符串,这理所当然会出现乱码。
接着,我们将刚才提取到的图片保存下来:
import requests r = requests.get("https://github.com/favicon.ico") with open('favicon.ico', 'wb') as f: f.write(r.content)
运行即可保存。
4.8.2 示例二以爬取我自己的头像为例子:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)