注:这些知识只是必要的前件知识,没有必要打破沙锅问到底,只需了解即可
前件知识:
1.request和respond
request是爬虫向互联网发送请求,respond是互联网对爬虫的回应。
在我们实际对一个页面的 *** 作就是这一步:
按下一个按键(google搜索关键词从而搜索内容)------>互联网对用户 *** 作进行反馈,网页把源代码进行编译,产生图形界面让用户观看。
用户输入 ,向互联网发送请求
互联网对用户请求的响应
如图
对网页源代码进行编译解释,形成我们想要的网页
2.URL与Headers
而我们要给爬虫做的,就是模拟人类用户的过程。
headers的意思是请求头,在网页中,存在反爬机制,避免爬虫机器人去爬取数据,其中headers之中的User-Agent算一个
我们右键inspect(或者F12)就可以找到它。
用户在浏览器的 *** 作User-Agent就是浏览器内核和用户 *** 作系统的信息。
而如果使用爬虫,User-Agent则为使用爬虫的python信息。
网页通过检测User-Agent来检测是否为机器人爬虫。
回归正题,为了避免网页把我们的爬虫检测到,我们可以通过伪装成普通用户访问的 *** 作。
*** 作步骤是:
headers = {'User-Agent':'User-Agent大全'}
记住格式就行,Google去搜索user-agent大全即可。注意这里格式一个都不能错。大小写,单引号,冒号必须为英文格式
URL是什么呢:
简单点理解,它就是一个地址
爬虫不可能像用户一样敲击回车或者按搜索键,所以我们需要信息URL地址,有了地址,我们就可以通过爬虫去访问。
我们学习了一些前件概念,什么是url,headers,request和respond是什么意思,这些只需了解即可,不必打破沙锅问到底,我们下一篇文章再见。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)