Scrapy快速入门
两种存储方式:
一. 通过执行命令(有局限性)
二. 编写pipelines.py等文件 ( *** 作相对复杂)
1. 修改、编写 items.py
2. 修改、编写 baidu.py
3. 编写 pipelines.py
4. 修改、编写 settings.py
5. 运行
一. 通过Terminal窗口,执行命令,对数据进行存储 (有局限性)
只能用于生成 json、 jsonlines、 jl、 csv、 xml、 marshal、 pickle 类型文件
二. 通过piplines.py文件,对数据进行存储
1. 编写items.py文件
2. 编写baidu.py文件
3. 编写pipelines.py文件
4. 编写settings.py文件
5. Terminal 窗口中执行命令 scrapy crawl baidu
等待, 则生成名为baidu.txt文件,且爬取网页源码数据自动存储至该文件
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)