爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!

爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!,第1张

概述最近打算买一辆电瓶来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。

最近打算买一辆电瓶车来上下班,但又不知道哪个好,网上是各说纷纭啊,于是就想着,干脆用node.Js自己写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。

(以后完整代码请前往www.yubowen2003.com 暂时还在建设中,欢迎大家提issue:joy: 。)

简介

该demo采用node.Js作为爬虫,为方便,有些地方使用es6语法,如有不懂,欢迎咨询:blush:

步骤

第一步,引入需要的库
var cheerio = require('cheerio');var fetch = require('node-fetch');// cheerio 是一个类似浏览器端的jquery,用来解析HTML的// fetch 用来发送请求
第二步,设置初始的爬取的入口(我身处杭州,所以地区选了杭州的 )
// 初始urlvar url = "http://detail.zol.com.cn/convenIEnttravel/hangzhou/#List_merchant_loc"// 由于每个a标签下是相对路径,故需要一个根地址来拼接,如下var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是为了防止有相同的而重复爬去var urls = new Set()// 存储所有数据var data = [] 

至此,我们的准备部分结束了:sweat_smile:,接下来,开始表演了

分析网页,思考爬取的方式

进群:548377875  即可获取数十套pdf以及大量的学习教程哦!

每行4款,每页是48款,一共16页

思路:

每次获取当前页48个链接,并点进去之后,拿到该电瓶车的名称和价格(其他信息获取方式一样,自行改就好:joy:) 第一页的全部完成之后,翻到下一页,继续爬,直到最后一页结束

首先我们定义一个函数如下

// 这是得到每个页面的48个链接,并开始发送请求function ad(arg){ // 参数 arg 先不管 // 本地化一下需要爬取的链接 let url2 = arg || url; // 请求第一页该网页,拿到数据之后,复制给 app var app = await fetch(url2).then(res=>res.text()) // 然后假装用jquery解析了 var $ = cheerio.load(app) // 获取当前页所有电瓶车的a标签 var ele = $("#J_PicMode a.pic") // 存放已经爬取过的url,防止重复爬取 var old_urls = [] var urlapp = [] //拿到所有a标签地址之后,存在数组里面,等会儿要开始爬的 for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } // 用把URL一块丢给promise处理 urlapp = await Promise.all(old_urls) // 处理完成之后,循环加入jquery:joy: for (let i = 0; i < urlapp.length; i++) { let  = cheerio.load(urlapp[i],{decodeEntities: false}) data.push({ name:(".product-model__name").text(),price:(".price-type").text() }) } // 至此,一页的数据就爬完了 // console.log(data);

// 然后开始爬取下一页
var nextURL = $(".next").attr('href')
// 判断当前页是不是最后一页
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 获取下一页的标签,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代码如下

var cheerio = require('cheerio');var fetch = require('node-fetch');var url = "http://detail.zol.com.cn/convenIEnttravel/hangzhou/#List_merchant_loc"var urlRoot = "http://detail.zol.com.cn"// var url = "http://localhost:3222/app1"var urls = new Set()var data = [] async function ad(arg){ let url2 = arg || url; var app = await fetch(url2).then(res=>res.text()) var $ = cheerio.load(app) var ele = $("#J_PicMode a.pic") var old_urls = [] var urlapp = [] for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } urlapp = await Promise.all(old_urls) for (let i = 0; i < urlapp.length; i++) { let  = cheerio.load(urlapp[i],price:(".price-type").text() }) }

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

总结

以上是内存溢出为你收集整理的爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!全部内容,希望文章能够帮你解决爬取中关村在线电瓶车信息!你们的电瓶都备好了吗?周某来了哟!所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1208503.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存