4.python爬虫之新建 scrapy 爬虫项目(抓取和保存)_服务器

1win10 下 win + r 打开cmd 切换新项目的目录
2新建scrapy项目的命令:

可以利用pycharm 打开项目文件夹编辑项目
3itemspy
声明爬取的字段

4新建scrapy 爬虫

用命令 scrapy genspider doubanmovie "moviedoubancom" 创建爬虫。

5运行爬虫

51 创建运行脚本
(一)、在 scrapycfg 同级目录下创建 pycharm 调试脚本 runpy，避免每次运行爬虫输入密码,内容如下：

6修改robottxt协议
修改 settings 中的 ROBOTSTXT_OBEY = True 参数为 False,因为默认为 True，就是要遵守 robotstxt 的规则， robotstxt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。在 Scrapy 启动后，会在第一时间访问网站的 robotstxt 文件，然后决定该网站的爬取范围。查看 robotstxt 可以直接网址后接 robotstxt 即可。

一般构建爬虫系统，建议自己编写Item Pipeline,就可以在open(path)选择自己的保存路径
参考: # scrapy爬虫事件以及数据保存为txt,json,mysql
71保存为json格式时出现乱码的解决方式:
scrapy抓取豆瓣书籍保存json文件乱码问题
中文默认是Unicode,如:

\u5317\u4eac\u5927\u5b66
在setting文件settingspy中设置：

就可以解决了
第二种解决办法
或在cmd中传入 -s FEED_EXPORT_ENCODING='utf-8'

参考: >

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/10764796.html

4.python爬虫之新建 scrapy 爬虫项目(抓取和保存)

发表评论

评论列表（0条）