使用java怎么读取html文件内容_随笔

java可以使用jsoup、htmlparser等工具进行html的读取和解析，以下是详细说明：

1、jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的 *** 作方法来取出和 *** 作数据。据说它是基于MIT协议发布的。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；

使用DOM或CSS选择器来查找、取出数据；

可 *** 作HTML元素、属性、文本；

示例代码：

Document doc = Jsoup.parse(input, "UTF-8", "http://www.dangdang.com")

Element content = doc.getElementById("content")

Elements links = content.getElementsByTag("a")

for (Element link : links) {

String linkHref = link.attr("href")

String linkText = link.text()

}

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

import java.io.*

import java.util.*

import javax.swing.text.*

import javax.swing.text.html.*

import javax.swing.text.html.parser.*

import javax.swing.text.html.HTMLEditorKit.ParserCallback

public class Parser extends ParserCallback { //继承ParserCallback，解析结果驱动这些回调方法

protected String base

protected boolean isImg = false

protected boolean isParagraph = false

protected static Vector<String> element = new Vector<String>()

protected static String paragraphText = new String()

public Parser() {

}

public static String getParagraphText() {

return paragraphText

}

public void handleComment(char[] data, int pos) {

}

public void handleEndTag(HTML.Tag t, int pos) {

if (t == HTML.Tag.P) {

if (isParagraph) {

isParagraph = false

}

} else if (t == HTML.Tag.IMG) {

if (isImg) {

isImg = false

}

public void handleError(String errorMsg, int pos) {

}

public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {

handleStartTag(t, a, pos)

}

public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {

if (t == HTML.Tag.P) {

isParagraph = true

} else if ((t == HTML.Tag.IMG)) {

String src = (String) a.getAttribute(HTML.Attribute.SRC)

if (src != null) {

element.addElement(src)

isImg = true

}

public void handleText(char[] data, int pos) {

if (isParagraph) {

String tempParagraphText = new String(data)

if (paragraphText != null) {

element.addElement(tempParagraphText)

}

private static void startParse(String sHtml) {

try {

ParserDelegator ps = new ParserDelegator()//负责每次在调用其 parse 方法时启动一个新的 DocumentParser

HTMLEditorKit.ParserCallback parser = new Parser()//解析结果驱动这些回调方法。

ps.parse(new StringReader(sHtml), parser, true)//解析给定的流并通过解析的结果驱动给定的回调。

//System.out.println(getParagraphText())

Vector link = element

for (int i = 0 i < link.size() i++) {

System.out.println("----haha-----")

System.out.println(link.get(i))

}

} catch (Exception e) {

e.printStackTrace()

}

public static void main(String args[]) {

try {

String filename = "D://blogbaby.htm"

BufferedReader brd = new BufferedReader(new FileReader(filename))

char[] str = new char[50000]

brd.read(str)

String sHtml = new String(str)

startParse(sHtml)

} catch (Exception e) {

e.printStackTrace()

}

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7015987.html

使用java怎么读取html文件内容

发表评论

评论列表（0条）