爬取煎蛋妹子图-python_软件运维

煎蛋做了反爬虫的机制，图片的URL做了加密处理，F12能尺困看到，但是beautifulsoup解析不出来。本来是想找解密的方法，无意中搜到selemium这个神器。 selenium 是一个web的自动化测试工具，可以模拟用户 *** 作浏览器。这陵州念样就可以直接获取图片URL了

内网： https://npm.taobao.org/mirrors/chromedriver/

外网： https://sites.google.com/a/chromium.org/chromedriver/downloads

项目地址： https://github.com/aszt/jiandan-gril

注：源码中存放了最新版，支持Chrome v62-64

PS：爬煎蛋不要太过分，对煎蛋服务器压力很大，练手后去爬其他大迹源站吧。

抓取网站上的妹子照片。

第三方模块

superagent : 第三方Nodejs 模块，用于处理服务器和客户端的Http请求。

cheerio : 为服务器端定制的Jquery实现。

思路

通过superagent 获取目标网站的dom

通过cheerio对dom进行解析，获得通用布局。

如果只是爬取一个页面，则可以直接将目标页面的目标元素获取

如果是分页或者多个页面，可以通过循环获得目标链接，进历没歼行多次抓取。

实现

这里我们实现一个抓取网站妹子的照片。

目标网址：http://jandan.net/ooxx/ （对于该网站，并没有恶意攻击的意思.)

代码如下：

//引入第三方和通用模块

var fs = require('fs')//为了将抓取的图片存到本地，使用fs

var superagent = require('superagent')//引入superagent

var cheerio = require('cheerio')//引入jquery实现

var filePath = '/node/学习察兄/sis/img/'/肢冲/定义抓取妹子文件存放路径

var count = 0//记录抓取数量

var test = []

//抓取一个页面的实现。

var getOnePage = function(url){

//因为煎蛋对请求做了限制，所以将cookie加上了。如果你要访问该网站的话，可以通过浏览器查找cookie 并进行替换

superagent.get(url)

.set({

'user-agent':'Mozilla/5.0 (Windows NT 10.0 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'

})

欢迎分享，转载请注明来源：内存溢出

爬取煎蛋妹子图-python