文章目录提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
- 前言
一、爬虫是什么?
二、
- 1.爬虫的基本流程
- 2.以scrapy爬取58租房信息为例
三、总结
前言
随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。
互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。
一、爬虫是什么?
网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
通俗来讲,就是通过代码、模拟浏览器上网,然后抓取数据的过程。
爬虫可分为以下三类:
1.获取一整张页面 【通用爬虫】
2.获取一整张页面 部分数据 【聚焦爬虫】
3.检查页面更新、获取页面最新的更新的数据 【增量式爬虫】
二、 1.爬虫的基本流程
发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息。
获取响应内容:如果服务器正常响应,那我们将会收到一个response,response即为我们所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。
解析内容:如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件进行进一步处理。
保存数据:可以保存到本地文件,也可以保存到数据库(MySQL,Redis,Mongodb等)
主流库:
代码如下(示例):
import scrapy
class itemSpider(scrapy.Spider):
# 爬虫名 启动爬虫时需要的参数*必需
name = 'zufang'
# 爬取域范围 允许爬虫在这个域名下进行爬取(可选) 可以不写
# allowed_domains = ['itcast.cn']
# 起始url列表 爬虫的第一批请求,将求这个列表里获取
start_urls = ['https://hf.58.com/chuzu/?PGTID=0d100000-0034-561b-52aa-3b0813a79f76&ClickID=2']
def parse(self, response):
ul = response.xpath("//div[@class='des']//h2//a/text()")
for data in ul:
a= data.extract()
b=str(a).strip()
if b is not None:
if b != '':
print(b)
item = {}
item['address']=b
yield item
next_url = response.xpath("//a[@class='next']/@href").extract_first()
# print("下一页地址:"+next_url)
if next_url !='':
yield scrapy.Request(next_url,callback=self.parse)
三、总结
所学有限,仅供娱乐。
。
。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)