HTML分析是一个比较复杂的工作,Java世界主要有几款比较方便的分析工具:
1.Jsoup
Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是,可以用于支持用jQuery中css selector的方式选取元素,这对于熟悉js的开发者来说基本没有学习成本。
String content = "blabla"
Document doc = JSoup.parse(content)
Elements links = doc.select("a[href]")
Jsoup还支持白名单过滤机制,对于网站防止XSS攻击也是很好的。
2.HtmlParser
HtmlParser的功能比较完备,也挺灵活,但谈不上方便。这个项目很久没有维护了,最新版本是2.1。HtmlParser的核心元素是Node,对应一个HTML标签,支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter,通过实现NodeFilter接口,可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章:使用 HttpClient 和 HtmlParser 实现简易爬虫。
3.Apache tika
tika是专为抽取而生的工具,还支持PDF、Zip甚至是Java Class。使用tika分析HTML,需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler,解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用,我个人倒是认为对于解析html意义不是很大。
InputStream inputStream = nullHtmlParser htmlParser = new HtmlParser()
htmlParser.parse(new ByteArrayInputStream(page.getContentData()),
contentHandler, metadata, new ParseContext())
4.HtmlCleaner与XPath
HtmlCleaner最大的优点是:支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言,也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的,但是CSS Selector专门针对HTML,写法更简洁,而XPath则是通用的标准,可以精确到属性值。XPath有一定的学习成本,但是对经常需要编写爬虫的人来说,这点投入绝对是值得的。
import java.io.*import java.util.*
import javax.swing.text.*
import javax.swing.text.html.*
import javax.swing.text.html.parser.*
import javax.swing.text.html.HTMLEditorKit.ParserCallback
public class Parser extends ParserCallback { //继承ParserCallback,解析结果驱动这些回调方法
protected String base
protected boolean isImg = false
protected boolean isParagraph = false
protected static Vector<String> element = new Vector<String>()
protected static String paragraphText = new String()
public Parser() {
}
public static String getParagraphText() {
return paragraphText
}
public void handleComment(char[] data, int pos) {
}
public void handleEndTag(HTML.Tag t, int pos) {
if (t == HTML.Tag.P) {
if (isParagraph) {
isParagraph = false
}
} else if (t == HTML.Tag.IMG) {
if (isImg) {
isImg = false
}
}
}
public void handleError(String errorMsg, int pos) {
}
public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a, int pos) {
handleStartTag(t, a, pos)
}
public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
if (t == HTML.Tag.P) {
isParagraph = true
} else if ((t == HTML.Tag.IMG)) {
String src = (String) a.getAttribute(HTML.Attribute.SRC)
if (src != null) {
element.addElement(src)
isImg = true
}
}
}
public void handleText(char[] data, int pos) {
if (isParagraph) {
String tempParagraphText = new String(data)
if (paragraphText != null) {
element.addElement(tempParagraphText)
}
}
}
private static void startParse(String sHtml) {
try {
ParserDelegator ps = new ParserDelegator()//负责每次在调用其 parse 方法时启动一个新的 DocumentParser
HTMLEditorKit.ParserCallback parser = new Parser()//解析结果驱动这些回调方法。
ps.parse(new StringReader(sHtml), parser, true)//解析给定的流并通过解析的结果驱动给定的回调。
//System.out.println(getParagraphText())
Vector link = element
for (int i = 0 i < link.size() i++) {
System.out.println("----haha-----")
System.out.println(link.get(i))
}
} catch (Exception e) {
e.printStackTrace()
}
}
public static void main(String args[]) {
try {
String filename = "D://blogbaby.htm"
BufferedReader brd = new BufferedReader(new FileReader(filename))
char[] str = new char[50000]
brd.read(str)
String sHtml = new String(str)
startParse(sHtml)
} catch (Exception e) {
e.printStackTrace()
}
}
}
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)