内网: https://npm.taobao.org/mirrors/chromedriver/
外网: https://sites.google.com/a/chromium.org/chromedriver/downloads
项目地址: https://github.com/aszt/jiandan-gril
注:源码中存放了最新版,支持Chrome v62-64
PS:爬煎蛋不要太过分,对煎蛋服务器压力很大,练手后去爬其他大迹源站吧。
目标抓取网站上的妹子照片。
第三方模块
superagent : 第三方Nodejs 模块,用于处理服务器和客户端的Http请求。
cheerio : 为服务器端定制的Jquery实现。
思路
通过superagent 获取目标网站的dom
通过cheerio对dom进行解析,获得通用布局。
如果只是爬取一个页面,则可以直接将目标页面的目标元素获取
如果是分页或者多个页面,可以通过循环获得目标链接,进历没歼行多次抓取。
实现
这里我们实现一个抓取网站妹子的照片。
目标网址:http://jandan.net/ooxx/ (对于该网站,并没有恶意攻击的意思.)
代码如下:
//引入第三方和通用模块
var fs = require('fs')//为了将抓取的图片存到本地,使用fs
var superagent = require('superagent')//引入superagent
var cheerio = require('cheerio')//引入jquery实现
var filePath = '/node/学习察兄/sis/img/'/肢冲/定义抓取妹子文件存放路径
var count = 0//记录抓取数量
var test = []
//抓取一个页面的实现。
var getOnePage = function(url){
//因为煎蛋对请求做了限制,所以将cookie加上了。如果你要访问该网站的话,可以通过浏览器查找cookie 并进行替换
superagent.get(url)
.set({
'user-agent':'Mozilla/5.0 (Windows NT 10.0 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'
})
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)