爬虫学习日记 Day1 什么是request,respond,url,headers

爬虫学习日记 Day1 什么是request,respond,url,headers,第1张

爬虫学习日记 Day1 什么是request,respond,url,headers

注:这些知识只是必要的前件知识,没有必要打破沙锅问到底,只需了解即可

前件知识:

1.request和respond

request是爬虫向互联网发送请求,respond是互联网对爬虫的回应。

在我们实际对一个页面的 *** 作就是这一步:

按下一个按键(google搜索关键词从而搜索内容)------>互联网对用户 *** 作进行反馈,网页把源代码进行编译,产生图形界面让用户观看。


用户输入 ,向互联网发送请求

互联网对用户请求的响应

 如图

 对网页源代码进行编译解释,形成我们想要的网页

 


2.URL与Headers

 而我们要给爬虫做的,就是模拟人类用户的过程。

headers的意思是请求头,在网页中,存在反爬机制,避免爬虫机器人去爬取数据,其中headers之中的User-Agent算一个

我们右键inspect(或者F12)就可以找到它。 

用户在浏览器的 *** 作User-Agent就是浏览器内核和用户 *** 作系统的信息。

而如果使用爬虫,User-Agent则为使用爬虫的python信息。

网页通过检测User-Agent来检测是否为机器人爬虫。

回归正题,为了避免网页把我们的爬虫检测到,我们可以通过伪装成普通用户访问的 *** 作。

*** 作步骤是:

headers = {'User-Agent':'User-Agent大全'}

记住格式就行,Google去搜索user-agent大全即可。注意这里格式一个都不能错。大小写,单引号,冒号必须为英文格式

URL是什么呢:

简单点理解,它就是一个地址

 爬虫不可能像用户一样敲击回车或者按搜索键,所以我们需要信息URL地址,有了地址,我们就可以通过爬虫去访问。

我们学习了一些前件概念,什么是url,headers,request和respond是什么意思,这些只需了解即可,不必打破沙锅问到底,我们下一篇文章再见。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5689999.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存