java爬取知乎答案的时候，如何去除其中的HTML标签_随笔

可以通过正则表达式去除html标签

import java.util.regex.Matcher

import java.util.regex.Pattern

public class HtmlUtil {

private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>" // 定义script的正则表达式

private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>" // 定义style的正则表达式

private static final String regEx_html = "<[^>]+>" // 定义HTML标签的正则表达式

private static final String regEx_space = "\\s*|\t|\r|\n"//定义空格回车换行符

/**

* @param htmlStr

* @return

* 删除Html标签

public static String delHTMLTag(String htmlStr) {

Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE)

Matcher m_script = p_script.matcher(htmlStr)

htmlStr = m_script.replaceAll("") // 过滤script标签

Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE)

Matcher m_style = p_style.matcher(htmlStr)

htmlStr = m_style.replaceAll("") // 过滤style标签

Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE)

Matcher m_html = p_html.matcher(htmlStr)

htmlStr = m_html.replaceAll("") // 过滤html标签

Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE)

Matcher m_space = p_space.matcher(htmlStr)

htmlStr = m_space.replaceAll("") // 过滤空格回车标签

return htmlStr.trim() // 返回文本字符串

}

public static String getTextFromHtml(String htmlStr){

htmlStr = delHTMLTag(htmlStr)

htmlStr = htmlStr.replaceAll(" ", "")

htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1)

return htmlStr

}

public static void main(String[] args) {

String str = "<div style='text-align:center'> 整治“四风” 清弊除垢<br/><span style='font-size:14px'> </span><span style='font-size:18px'>公司召开党的群众路线教育实践活动动员大会</span><br/></div>"

System.out.println(getTextFromHtml(str))

}

针对于你提的问题，如果想去掉class和style属性必须对所需要去掉属性的标签增加id

以你提供的代码为例，首先需要增加id属性，修改后如下：

文本1

</div>

文本2.....<font color='#00000'>文本3</font><span style="line-height:24px">文本4</span>

</p>

</div>

然后编写对应js代码，代码如下：

function delClass(){

$("#testdiv").removeClass("content")

$("#testp").removeClass("bbb")

}

上述代码可以去除Class

注：

如果程序为进入页面后调用则需要在body中增加onload方法也就是：onload="delClass()"

如果为点击式触发则在页面增加按钮，对按钮总方法onClick方法指定删除的js方法

希望回答对你有用。

HTML分析是一个比较复杂的工作，Java世界主要有几款比较方便的分析工具：

1.Jsoup

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是，可以用于支持用jQuery中css selector的方式选取元素，这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制，对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备，也挺灵活，但谈不上方便。这个项目很久没有维护了，最新版本是2.1。HtmlParser的核心元素是Node，对应一个HTML标签，支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter，通过实现NodeFilter接口，可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章：使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具，还支持PDF、Zip甚至是Java Class。使用tika分析HTML，需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler，解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用，我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是：支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言，也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的，但是CSS Selector专门针对HTML，写法更简洁，而XPath则是通用的标准，可以精确到属性值。XPath有一定的学习成本，但是对经常需要编写爬虫的人来说，这点投入绝对是值得的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/6094010.html

java爬取知乎答案的时候，如何去除其中的HTML标签

发表评论

评论列表（0条）