052

052,第1张

爬虫解释:

        通过程序,根据url(http://taobao.com)进行网页的爬取 获取有用的信息

实用程序模拟浏览器,去向服务发送请求,获取响应信息

爬虫的核心

爬取网页:爬取整个网页 包含了网页中所的内容

解析数据:将网页中得到的数据 进行解析

难点:爬虫和但爬虫之间的博弈

爬虫的类型

实例


通用爬虫

        百度,360,Google,搜狗等搜索引擎

功能

        访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务

robots协议

        一个约定俗成的协议,添加robots.txt文件 来说明本网站哪些内容不可被抓取,起不到限制作用 自己写的爬虫无需遵守

网站排名(seo)

        1根据pagerank算法进行排名(参考各站流量,点击率等指标)

2百度竞价排名

缺点

        抓取的数据大多是无用的

不能更具用户的需求来精准获取数据


聚焦爬虫

功能 

        根据需求,实现爬虫程序,抓取需要的数据

 设计思路

        1确定要爬取的url

                如何获取url

        2模拟浏览器通过http协议访问url,获取服务器返回的html代码

        3解析html字符串(根据一定规则提取需要的数据)

        如何解析


反爬虫手段?

        1user-Agent:

                user-Agent中文名未用户代理,检查UA,它是一个特殊字符串头,使得服务器能够识别客户使用的 *** 作系统及版本,cpu类型,浏览器及版本,浏览器渲染引擎,浏览器预约,浏览器插件等

2代理ip

        西次代理

        快代理

        什么是高匿名,匿名和透明代理?它们有什么区别?

                1使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实ip

                2使用匿名代理,对方服务器可以知道你使用了代理,但是不知道你的真实ip

                 3使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP

3验证码访问

        打码平台

                云打码平台

                超级🦅

4动态加载网页        网站返回的是js数据 并不是网页的真实数据

        selenlim驱动真实的浏览器发送请求

5数据加密

        分析js代码


urllib库使用

        urllib.request.urlopen()模拟浏览器向服务器发送请求

response        服务器返回的数据

        response的数据类型是HTTP response

        字节——》字符串

                        解码decode

        字符串——》字节

                        编码Encode

        read()                字节形式读取二进制

        reafline()            读取一行

        readlines()          一行一行读取 直至结束

        getcode()            获取状态码

        ge'turl()                获取url

        getheaders()         获取headers

urllib。request。urlretrieve()

        请求网页

        请求图片

        请求视频

                        

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/943224.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-18
下一篇 2022-05-18

发表评论

登录后才能评论

评论列表(0条)

保存