在水族馆模板项目(https://github.com/TeamHG-Memex/aquarium)之后,我发现诀窍是使Splash使用Tor,而不是直接使用蜘蛛。
我改编的项目具有以下结构:
.├── docker-compose.yml├── example│ ├── Dockerfile│ ├── scrapy.cfg│ └── scrashtest│ ├── __init__.py│ ├── settings.py│ └── spiders│ ├── __init__.py│ └── quotes.py└── splash └── proxy-profiles └── default.ini
和
docker-compose.yml是
version: '3'services: scraper: build: ./example links: - splash tor-privoxy: image: rdsubhas/tor-privoxy-alpine splash: image: scrapinghub/splash volumes: - ./splash/proxy-profiles:/etc/splash/proxy-profiles:ro links: - tor-privoxy
在http://splash.readthedocs.io/en/stable/api.html#proxy-
profiles之后,我将
proxy-profiles目录作为卷挂载到了
splash容器中。在读
default.ini
[proxy]host=tor-privoxyport=8118
(我也注意到称它为必不可少的
default.ini)。
通过此设置,on
docker-compose build和
docker-compose up刮板使用Splash成功运行。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)