爬虫解释:
通过程序,根据url(http://taobao.com)进行网页的爬取 获取有用的信息
实用程序模拟浏览器,去向服务发送请求,获取响应信息
爬虫的核心
爬取网页:爬取整个网页 包含了网页中所的内容
解析数据:将网页中得到的数据 进行解析
难点:爬虫和但爬虫之间的博弈
爬虫的类型
实例
通用爬虫
百度,360,Google,搜狗等搜索引擎
功能
访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务
robots协议
一个约定俗成的协议,添加robots.txt文件 来说明本网站哪些内容不可被抓取,起不到限制作用 自己写的爬虫无需遵守
网站排名(seo)
1根据pagerank算法进行排名(参考各站流量,点击率等指标)
2百度竞价排名
缺点
抓取的数据大多是无用的
不能更具用户的需求来精准获取数据
聚焦爬虫
功能
根据需求,实现爬虫程序,抓取需要的数据
设计思路
1确定要爬取的url
如何获取url
2模拟浏览器通过http协议访问url,获取服务器返回的html代码
3解析html字符串(根据一定规则提取需要的数据)
如何解析
反爬虫手段?
1user-Agent:
user-Agent中文名未用户代理,检查UA,它是一个特殊字符串头,使得服务器能够识别客户使用的 *** 作系统及版本,cpu类型,浏览器及版本,浏览器渲染引擎,浏览器预约,浏览器插件等
2代理ip
西次代理
快代理
什么是高匿名,匿名和透明代理?它们有什么区别?
1使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实ip
2使用匿名代理,对方服务器可以知道你使用了代理,但是不知道你的真实ip
3使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP
3验证码访问
打码平台
云打码平台
超级🦅
4动态加载网页 网站返回的是js数据 并不是网页的真实数据
selenlim驱动真实的浏览器发送请求
5数据加密
分析js代码
urllib库使用
urllib.request.urlopen()模拟浏览器向服务器发送请求
response 服务器返回的数据
response的数据类型是HTTP response
字节——》字符串
解码decode
字符串——》字节
编码Encode
read() 字节形式读取二进制
reafline() 读取一行
readlines() 一行一行读取 直至结束
getcode() 获取状态码
ge'turl() 获取url
getheaders() 获取headers
urllib。request。urlretrieve()
请求网页
请求图片
请求视频
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)