NodeJs的优势:
现在的很多的服务器端的语言(PHP,JAVA,ASP.net),有什么问题呢,现在的服务器端的语言在用户访问服务器时,为每个用户链接创建了一个线程,但每个线程大约要耗费2M的内存,如果一个8G内存的服务器,也就能链接4000个左右的用户,如果用户的链接数较大,就必须增加服务器的数量,而且现在用户的链接方式有很多(如app,网页同时访问),这就又涉及到服务器共享的问题,所以服务器怎么支持最大的同时链接用户量就成了一个问题;
NodeJS修改了客户端到服务器端的链接方法,解决了这个问题,他不在为每个客户端创建一个新的线程,而是为每个客户端链接出发一个NodeJs内部进行处理的事件,所以NodeJS具备同时处理多达几万个用户的客户端链接的能力;
NodeJS适合开发的应用程序:
当应用程序需要处理大量并发的输入/输出,而在向客户端发出响应之前,应用程序内部并不需要进行非常复杂的处理的时候,我们应该考虑使用NodeJs来进行应用程序的开发,例如:
1、聊天服务器:如果聊天的人很多,用户的与服务器之间的并发链接量很大,但是服务器端的数据处理并不复杂;
2、综合类服务网站和电子商务网站的服务器:在这类网站中的服务器端,往往可能每秒存内可以接受多达上千条的数据并且需要将这些数据写入数据库中,NodeJs可以通过其队列机制将这些数据迅速写入缓存区中,然后再通过每一个单独的处理从缓存区中取出这些数据并将其写入数据库中,如果是其他的服务器(如Apache服务器或Tomcat服务器)的话,由于这些服务器采用的是阻塞型I/O机制,因此每条数据写入到数据库中都要等待一段时间(等上一条写完,才能写下一条),但是NodeJs使用的是非阻塞的I/O机制,因此可以实现这些数据到数据库中的写入,而不必再为每条数据的写入而等待一段时间;
总结:
一个规模稍微大点的系统都不是一种开发语言可以搞定的,往往是几种混杂一起,比如c、c++做服务器端开发,java做业务逻辑,php等做前端展示,此外还需要消息中间件等等。
nodejs可以很快地在服务器端做原型(原来只有c系和java等能做的事情,性能还很高),而且代码量相对会少很多;另一点是它的语法优势,js闭包等。但它不太适合做cpu密集型处理的工作,只能绕着弯去解决,据说这次QCon会有人分享这方面的研究成果,可以关注下。
每种语言都有它适合的领域,没必要强求一门语言可以解决所有事情,拥有其它语言的特性,只有不断的tradeoff把系统做出来才是目标。
这些都是丛书上看到总结的,还望指正
NodeJS制作爬虫全过程:1、建立项目craelr-demo
建立一个Express项目,然后将app.js的文件内容全部删除,因为暂时不需要在Web端展示内容。当然我们也可以在空文件夹下直接 npm install express来使用需要的Express功能。
2、目标网站分析
如图,这是CNode首页一部分div标签,就是通过这一系列的id、class来定位需要的信息。
3、使用superagent获取源数据
superagent就是ajax API来使用的Http库,它的使用方法与jQuery差不多,通过它发起get请求,在回调函数中输出结果。
代码如下:
var express = require('express')
var url = require('url')//解析 *** 作url
var superagent = require('superagent')//这三个外部依赖不要忘记npm install
var cheerio = require('cheerio')
var eventproxy = require('eventproxy')
var targetUrl = 'https://cnodejs.org/'
superagent.get(targetUrl)
.end(function (err, res) {
console.log(res)
})
4、使用cheerio解析
cheerio充当服务器端的jQuery功能,先使用它的.load()来载入HTML,再通过CSS selector来筛选元素。
代码如下:
var $ = cheerio.load(res.text)
//通过CSS selector来筛选数据
$('#topic_list .topic_title').each(function (idx, element) {
console.log(element)
})
5、使用eventproxy来并发抓取每个主题的内容
eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后,eventproxy接收到事件消息自动帮你调用处理函数。
代码如下:
//第一步:得到一个 eventproxy 的实例
var ep = new eventproxy()
//第二步:定义监听事件的回调函数。
//after方法为重复监听
//params: eventname(String) 事件名,times(Number) 监听次数, callback 回调函数
ep.after('topic_html', topicUrls.length, function(topics){
// topics 是个数组,包含了 40 次 ep.emit('topic_html', pair) 中的那 40 个 pair
//.map
topics = topics.map(function(topicPair){
//use cheerio
var topicUrl = topicPair[0]
var topicHtml = topicPair[1]
var $ = cheerio.load(topicHtml)
return ({
title: $('.topic_full_title').text().trim(),
href: topicUrl,
comment1: $('.reply_content').eq(0).text().trim()
})
})
//outcome
console.log('outcome:')
console.log(topics)
})
//第三步:确定放出事件消息的
topicUrls.forEach(function (topicUrl) {
superagent.get(topicUrl)
.end(function (err, res) {
console.log('fetch ' + topicUrl + ' successful')
ep.emit('topic_html', [topicUrl, res.text])
})
})
6、爬取结果分析
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)