1、反爬机制
-门户网站,可以通过指定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
2、反反爬策略
-爬虫程序可以通过指定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中的相关数据。
3、robots.txt协议:
-即君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。
超文本传输协议4、http协议
-概念:就是服务器和客户端进行数据交互的一种形式。
常用请求头信息
- User-Agent:请求载体的身份标识(访问者的信息)
- Connection:请求完毕后,是断开连接还是保持连接。
常用请求头信息
- Content-Type:服务器响应回客户端的数据类型(str,json等类型)
5、https协议:
-与http协议几乎相同,s表示安全,表示安全的超文本传输协议。(数据加密)
加密方法(三种)
- 对称密钥加密
指我们客户端会先将即将发送给服务器端的数据进行数据加密,加密的方式是由客户端自己指定的,加密完毕之后,将密文包括解密的方式(密钥)一块发送给服务器端,服务器端接收到了密钥和加密的密文数据之后,会使用密钥将密文数据进行解密,最后服务器端会获得原文数据。
弊端:在进行密钥和密文数据传输的过程中,,很有可能会被第三方机构拦截到,可能存在数据暴露的风险。
- 非对称密钥加密
针对对称加密的安全隐患,进行改良的加密方法,在使用的时候有两把锁,一把叫做“私有密钥”,一把是“公开密钥”,使用非对象加密的加密方式的时候,服务器首先告诉客户端按照自己给定的公开密钥进行加密处理,客户端按照公开密钥加密以后,服务器接收到信息再通过自己的私有密钥进行解密,这样做的好处就是解密的钥匙根本就不会进行传输,因此也就避免了被挟持的风险。就算公开密钥被窃听者拿到,它也很难进行解密,因为解密过程是对离散对数求值,这可不是轻而易举能做到的事。
缺点:
- 1.效率比较低,处理起来更加复杂,通信过程中使用就有一定的效率问题而影响通信速度。
-2. 只要是发送密钥,就有可能有被挟持的风险,如果中间机构将公钥篡改,再发送给客户端,这样就没有保证客户端拿到的公钥一定是由服务器所创建的。
- 证书密钥加密
针对非对称密钥加密的缺陷,我们没法保证客户端所拿到的公钥一定是由服务器端所创建的,引入证书密钥加密。
服务器的开发者携带公开密钥,向数字证书认证机构提出公开密钥的申请,数字证书认证机构在认清申请者的身份,审核通过以后,会对开发者申请的公开密钥做数字签名,然后分配这个已经签名的公开密钥,并将密钥放在证书里面,绑定在一起。
服务器将这份数字证书发送给客户端,因为客户端也认可证书机构,客户端通过数字证书中的数字签名来验证公钥的真伪,来确保服务器传过来的公开密钥是真实的。一般情况下,证书的数字签名很难被伪造的,这取决于认证机构的公信力。一旦确认信息无误之后,客户端就会通过公钥对报文进行加密发送,服务器接收到以后用自己的私钥进行解密。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)