爬虫01——http&https协议的理解

爬虫01——http&https协议的理解,第1张

1、反爬机制

        -门户网站,可以通过指定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

2、反反爬策略

        -爬虫程序可以通过指定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中的相关数据。

3、robots.txt协议:

        -即君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

超文本传输协议

4、http协议

        -概念:就是服务器和客户端进行数据交互的一种形式。

常用请求头信息

        - User-Agent:请求载体的身份标识(访问者的信息)

        - Connection:请求完毕后,是断开连接还是保持连接。

 常用请求头信息

        - Content-Type:服务器响应回客户端的数据类型(str,json等类型)

5、https协议:

        -与http协议几乎相同,s表示安全,表示安全的超文本传输协议。(数据加密)

加密方法(三种)

        - 对称密钥加密

                指我们客户端会先将即将发送给服务器端的数据进行数据加密,加密的方式是由客户端自己指定的,加密完毕之后,将密文包括解密的方式(密钥)一块发送给服务器端,服务器端接收到了密钥和加密的密文数据之后,会使用密钥将密文数据进行解密,最后服务器端会获得原文数据。

        弊端:在进行密钥和密文数据传输的过程中,,很有可能会被第三方机构拦截到,可能存在数据暴露的风险。

 

        - 非对称密钥加密

                        针对对称加密的安全隐患,进行改良的加密方法,在使用的时候有两把锁,一把叫做“私有密钥”,一把是“公开密钥”,使用非对象加密的加密方式的时候,服务器首先告诉客户端按照自己给定的公开密钥进行加密处理,客户端按照公开密钥加密以后,服务器接收到信息再通过自己的私有密钥进行解密,这样做的好处就是解密的钥匙根本就不会进行传输,因此也就避免了被挟持的风险。就算公开密钥被窃听者拿到,它也很难进行解密,因为解密过程是对离散对数求值,这可不是轻而易举能做到的事。

                缺点:

                        - 1.效率比较低,处理起来更加复杂,通信过程中使用就有一定的效率问题而影响通信速度。

                        -2. 只要是发送密钥,就有可能有被挟持的风险,如果中间机构将公钥篡改,再发送给客户端,这样就没有保证客户端拿到的公钥一定是由服务器所创建的。

 

        - 证书密钥加密

                        针对非对称密钥加密的缺陷,我们没法保证客户端所拿到的公钥一定是由服务器端所创建的,引入证书密钥加密。

                服务器的开发者携带公开密钥,向数字证书认证机构提出公开密钥的申请,数字证书认证机构在认清申请者的身份,审核通过以后,会对开发者申请的公开密钥做数字签名,然后分配这个已经签名的公开密钥,并将密钥放在证书里面,绑定在一起。

                服务器将这份数字证书发送给客户端,因为客户端也认可证书机构,客户端通过数字证书中的数字签名来验证公钥的真伪,来确保服务器传过来的公开密钥是真实的。一般情况下,证书的数字签名很难被伪造的,这取决于认证机构的公信力。一旦确认信息无误之后,客户端就会通过公钥对报文进行加密发送,服务器接收到以后用自己的私钥进行解密。

 

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/715300.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存