爬取煎蛋妹子图-python

爬取煎蛋妹子图-python,第1张

煎蛋做了反爬虫的机制,图片的URL做了加密处理,F12能尺困看到,但是beautifulsoup解析不出来。 本来是想找解密的方法,无意中搜到selemium这个神器。 selenium 是一个web的自动化测试工具,可以模拟用户 *** 作浏览器。这陵州念样就可以直接获取图片URL了

内网: https://npm.taobao.org/mirrors/chromedriver/

外网: https://sites.google.com/a/chromium.org/chromedriver/downloads

项目地址: https://github.com/aszt/jiandan-gril

注:源码中存放了最新版,支持Chrome v62-64

PS:爬煎蛋不要太过分,对煎蛋服务器压力很大,练手后去爬其他大迹源站吧。

目标

抓取网站上的妹子照片。

第三方模块

superagent : 第三方Nodejs 模块,用于处理服务器和客户端的Http请求。

cheerio : 为服务器端定制的Jquery实现。

思路

通过superagent 获取目标网站的dom

通过cheerio对dom进行解析,获得通用布局。

如果只是爬取一个页面,则可以直接将目标页面的目标元素获取

如果是分页或者多个页面,可以通过循环获得目标链接,进历没歼行多次抓取。

实现

这里我们实现一个抓取网站妹子的照片。

目标网址:http://jandan.net/ooxx/ (对于该网站,并没有恶意攻击的意思.)

代码如下:

//引入第三方和通用模块

var fs = require('fs')//为了将抓取的图片存到本地,使用fs

var superagent = require('superagent')//引入superagent

var cheerio = require('cheerio')//引入jquery实现

var filePath = '/node/学习察兄/sis/img/'/肢冲/定义抓取妹子文件存放路径

var count = 0//记录抓取数量

var test = []

//抓取一个页面的实现。

var getOnePage = function(url){

    //因为煎蛋对请求做了限制,所以将cookie加上了。如果你要访问该网站的话,可以通过浏览器查找cookie 并进行替换

    superagent.get(url)

    .set({

            'user-agent':'Mozilla/5.0 (Windows NT 10.0 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'

    })


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8225101.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-14
下一篇 2023-04-14

发表评论

登录后才能评论

评论列表(0条)

保存