如果网页内容是由javascript生成的，应该怎么实现爬虫呢？_软件运维

其实你自己已经说了答案。

普通流程：

1.请求获取html

2.DOM树分析或字符串处理筛选数据

3.存储数据

你的情况：

1.请求获取js

2.执行js（可能需要js重新包装再处理）得到html

3.DOM树分析或字符串处理筛选数据

4.存储数据

---------------------------

只是多了一层处理方式而已，或者也可以拿到js后，直接字符串处理包装。

NodeJS制作爬虫全过程：

1、建立项目craelr-demo

建立一个Express项目，然后将app.js的文件内容全部删除，因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用需要的Express功能。

2、目标网站分析

如图，这是CNode首页一部分div标签，就是通过这一系列的id、class来定位需要的信息。

3、使用superagent获取源数据

superagent就是ajax API来使用的Http库，它的使用方法与jQuery差不多，通过它发起get请求，在回调函数中输出结果。

代码如下：

var express = require('express')

var url = require('url')//解析 *** 作url

var superagent = require('superagent')//这三个外部依赖不要忘记npm install

var cheerio = require('cheerio')

var eventproxy = require('eventproxy')

var targetUrl = 'https://cnodejs.org/'

superagent.get(targetUrl)

.end(function (err, res) {

console.log(res)

})

4、使用cheerio解析

cheerio充当服务器端的jQuery功能，先使用它的.load()来载入HTML，再通过CSS selector来筛选元素。

代码如下：

var $ = cheerio.load(res.text)

//通过CSS selector来筛选数据

$('#topic_list .topic_title').each(function (idx, element) {

console.log(element)

})

5、使用eventproxy来并发抓取每个主题的内容

eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后，eventproxy接收到事件消息自动帮你调用处理函数。

代码如下：

//第一步：得到一个 eventproxy 的实例

var ep = new eventproxy()

//第二步：定义监听事件的回调函数。

//after方法为重复监听

//params: eventname(String) 事件名,times(Number) 监听次数, callback 回调函数

ep.after('topic_html', topicUrls.length, function(topics){

// topics 是个数组，包含了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair

//.map

topics = topics.map(function(topicPair){

//use cheerio

var topicUrl = topicPair[0]

var topicHtml = topicPair[1]

var $ = cheerio.load(topicHtml)

return ({

title: $('.topic_full_title').text().trim(),

href: topicUrl,

comment1: $('.reply_content').eq(0).text().trim()

})

//outcome

console.log('outcome:')

console.log(topics)

})

//第三步：确定放出事件消息的

topicUrls.forEach(function (topicUrl) {

superagent.get(topicUrl)

.end(function (err, res) {

console.log('fetch ' + topicUrl + ' successful')

ep.emit('topic_html', [topicUrl, res.text])

})

6、爬取结果分析

纯粹前端的js 是不能跨域获取 cookie的

xxx.com 的js 代码只能得到 xxx.com的cookie，拿不到 yyy.com

当然如果你有办法在 yyy.com 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyy.com 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyy.com 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12192868.html

如果网页内容是由javascript生成的，应该怎么实现爬虫呢？

发表评论

评论列表（0条）