import java.io.BufferedWriter
import java.io.FileOutputStream
import java.io.IOException
import java.io.InputStream
import java.io.InputStreamReader
import java.io.OutputStream
import java.io.OutputStreamWriter
import java.net.MalformedURLException
import java.net.URL
import java.net.URLConnection
public class test {
public static void main(String args[]) {
try {
// /http://172.16.0.93:8089/site/gongwei/index.html
// 协议 主机名 文件 protocol hostname file
URL u = new URL("http://www.baidu.com/")
URLConnection urlc = u.openConnection()
InputStream is = urlc.getInputStream()
BufferedReader b = new BufferedReader(new InputStreamReader(is))
BufferedWriter br = new BufferedWriter(new OutputStreamWriter(
new FileOutputStream("d://12.txt"), "utf-8"))
int b2
while ((b2 = b.read()) != -1) {
System.out.write(b2)
br.write((char) b2)
br.flush()
}
} catch (MalformedURLException e) {
//
e.printStackTrace()
} catch (IOException e) {
//
e.printStackTrace()
}
}
}
网络爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。一般人能访问到的网页,爬虫也都能抓取。所谓的爬虫抓取,也是类似于我们浏览网页。但与普通人上网方式不同,爬虫是可以按照一定的规则,自动的采集信息。举个例子,比如说你从事的是文字编辑工作,需求稿件量大,可是效率很低,最大的一个原因便是很多的时间花费在了采集资料上,假如继续按照之前手动浏览的方式,要么就是你通宵达旦熬夜加班,要么便是让其他人帮你,但显然两者都不方便。这种情况下,网络爬虫就显得很重要。
随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。
我们感兴趣的信息分为不同的类型:如果只是做搜索引擎,那么感兴趣的信息就是互联网中尽可能多的高质量网页;如果要获取某一垂直领域的数据或者有明确的检索需求,那么感兴趣的信息就是根据我们的检索和需求所定位的这些信息,此时,需要过滤掉一些无用信息。前者我们称为通用网络爬虫,后者我们称为聚焦网络爬虫。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)