052_python_内存溢出

爬虫解释：

通过程序，根据url（http://taobao.com）进行网页的爬取获取有用的信息

实用程序模拟浏览器，去向服务发送请求，获取响应信息

爬虫的核心

爬取网页：爬取整个网页包含了网页中所的内容

解析数据：将网页中得到的数据进行解析

难点：爬虫和但爬虫之间的博弈

爬虫的类型

实例

通用爬虫

百度，360，Google，搜狗等搜索引擎

功能

访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务

robots协议

一个约定俗成的协议，添加robots.txt文件来说明本网站哪些内容不可被抓取，起不到限制作用自己写的爬虫无需遵守

网站排名（seo）

1根据pagerank算法进行排名（参考各站流量，点击率等指标）

2百度竞价排名

缺点

抓取的数据大多是无用的

不能更具用户的需求来精准获取数据

聚焦爬虫

功能

根据需求，实现爬虫程序，抓取需要的数据

设计思路

1确定要爬取的url

如何获取url

2模拟浏览器通过http协议访问url，获取服务器返回的html代码

3解析html字符串（根据一定规则提取需要的数据）

如何解析

反爬虫手段？

1user-Agent：

user-Agent中文名未用户代理，检查UA，它是一个特殊字符串头，使得服务器能够识别客户使用的 *** 作系统及版本，cpu类型，浏览器及版本，浏览器渲染引擎，浏览器预约，浏览器插件等

2代理ip

西次代理

快代理

什么是高匿名，匿名和透明代理？它们有什么区别？

1使用透明代理，对方服务器可以知道你使用了代理，并且也知道你的真实ip

2使用匿名代理，对方服务器可以知道你使用了代理，但是不知道你的真实ip

3使用高匿名代理，对方服务器不知道你使用了代理，更不知道你的真实IP

3验证码访问

打码平台

云打码平台

超级🦅

4动态加载网页网站返回的是js数据并不是网页的真实数据

selenlim驱动真实的浏览器发送请求

5数据加密

分析js代码

urllib库使用

urllib.request.urlopen()模拟浏览器向服务器发送请求

response 服务器返回的数据

response的数据类型是HTTP response

字节——》字符串

解码decode

字符串——》字节

编码Encode

read（）字节形式读取二进制

reafline（）读取一行

readlines（）一行一行读取直至结束

getcode（）获取状态码

ge'turl（）获取url

getheaders（）获取headers

urllib。request。urlretrieve（）

请求网页

请求图片

请求视频

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/943224.html

052

发表评论

评论列表（0条）