win7中怎么安装scrapy

win7中怎么安装scrapy,第1张

scrapy,需要安装scrapy的一些依赖包,以现有机子环境为例说明一些安装过程

系统:win7 64bit

安装步骤:

1.先安装Python,机子是64位的,所以Python最好安装64位的,不然依赖包安装出错,下载的是2.7版本。

2.安装scrapy依赖包,下载对应的Python2.7 64位版本:

pywin32;

Twisted:;

zope.interface;

lxml;

pyOpenSSL;

这些软件应用通过百度可以查询的到。

3.安装scrapy,可以直接下载scrapy回来通过setup.py install安装,也可以通过eazy_install scrapy安装,后面这种安装需要先安装eazy_install.py,安装完成后 在控制台输入scrapy,有信息输出说明安装成功。

1.win10 下 win + r 打开cmd 切换新项目的目录

2.新建scrapy项目的命令:

可以利用pycharm 打开项目文件夹编辑项目

3.items.py

声明爬取的字段

4.新建scrapy 爬虫

用命令 scrapy genspider doubanmovie "movie.douban.com" 创建爬虫。

5.运行爬虫

5.1 创建运行脚本

(一)、在 scrapy.cfg 同级目录下创建 pycharm 调试脚本 run.py,避免每次运行爬虫输入密码,内容如下:

6.修改robottxt协议

修改 settings 中的 ROBOTSTXT_OBEY = True 参数为 False,因为默认为 True,就是要遵守 robots.txt 的规则, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页不希望你进行爬取收录。在 Scrapy 启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。查看 robots.txt 可以直接网址后接 robots.txt 即可。

一般构建爬虫系统,建议自己编写Item Pipeline,就可以在open(path)选择自己的保存路径

参考: # scrapy爬虫事件以及数据保存为txt,json,mysql

7.1保存为json格式时出现乱码的解决方式:

scrapy抓取豆瓣书籍保存json文件乱码问题

中文默认是Unicode,如:

\u5317\u4eac\u5927\u5b66

在setting文件settings.py中设置:

就可以解决了

第二种解决办法

或在cmd中传入 -s FEED_EXPORT_ENCODING='utf-8'

参考: https://www.cnblogs.com/tinghai8/p/9700300.html


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/11357555.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-15
下一篇 2023-05-15

发表评论

登录后才能评论

评论列表(0条)

保存