java爬取知乎答案的时候,如何去除其中的HTML标签

java爬取知乎答案的时候,如何去除其中的HTML标签,第1张

可以通过正则表达式去除html标签

import java.util.regex.Matcher  

import java.util.regex.Pattern  

  

public class HtmlUtil {  

    private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>" // 定义script的正则表达式  

    private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>" // 定义style的正则表达式  

    private static final String regEx_html = "<[^>]+>" // 定义HTML标签的正则表达式  

    private static final String regEx_space = "\\s*|\t|\r|\n"//定义空格回车换行符  

      

    /** 

     * @param htmlStr 

     * @return 

     *  删除Html标签 

     */  

    public static String delHTMLTag(String htmlStr) {  

        Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE)  

        Matcher m_script = p_script.matcher(htmlStr)  

        htmlStr = m_script.replaceAll("") // 过滤script标签  

  

        Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE)  

        Matcher m_style = p_style.matcher(htmlStr)  

        htmlStr = m_style.replaceAll("") // 过滤style标签  

  

        Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE)  

        Matcher m_html = p_html.matcher(htmlStr)  

        htmlStr = m_html.replaceAll("") // 过滤html标签  

  

        Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE)  

        Matcher m_space = p_space.matcher(htmlStr)  

        htmlStr = m_space.replaceAll("") // 过滤空格回车标签  

        return htmlStr.trim() // 返回文本字符串  

    }  

      

    public static String getTextFromHtml(String htmlStr){  

        htmlStr = delHTMLTag(htmlStr)  

        htmlStr = htmlStr.replaceAll(" ", "")  

        htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1)  

        return htmlStr  

    }  

      

    public static void main(String[] args) {  

        String str = "<div style='text-align:center'> 整治“四风”   清弊除垢<br/><span style='font-size:14px'> </span><span style='font-size:18px'>公司召开党的群众路线教育实践活动动员大会</span><br/></div>"  

        System.out.println(getTextFromHtml(str))  

    }  

}

针对于你提的问题,如果想去掉class和style属性必须对所需要去掉属性的标签增加id

以你提供的代码为例,首先需要增加id属性,修改后如下:

<div class="content" id=“testdiv”>

<div id="t1">

文本1

</div>

<p class="bbb" id=“testp”>

文本2.....<font color='#00000'>文本3</font><span style="line-height:24px">文本4</span>

</p>

</div>

然后编写对应js代码,代码如下:

function delClass(){

$("#testdiv").removeClass("content")

$("#testp").removeClass("bbb")

}

上述代码可以去除Class

注:

如果程序为进入页面后调用则需要在body中增加onload方法也就是:onload="delClass()"

如果为点击式触发则在页面增加按钮,对按钮总方法onClick方法指定删除的js方法

希望回答对你有用。

HTML分析是一个比较复杂的工作,Java世界主要有几款比较方便的分析工具:

1.Jsoup 

Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是,可以用于支持用jQuery中css selector的方式选取元素,这对于熟悉js的开发者来说基本没有学习成本。

String content = "blabla"

Document doc = JSoup.parse(content)

Elements links = doc.select("a[href]")

Jsoup还支持白名单过滤机制,对于网站防止XSS攻击也是很好的。

2.HtmlParser

HtmlParser的功能比较完备,也挺灵活,但谈不上方便。这个项目很久没有维护了,最新版本是2.1。HtmlParser的核心元素是Node,对应一个HTML标签,支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter,通过实现NodeFilter接口,可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章:使用 HttpClient 和 HtmlParser 实现简易爬虫。

3.Apache tika

tika是专为抽取而生的工具,还支持PDF、Zip甚至是Java Class。使用tika分析HTML,需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler,解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用,我个人倒是认为对于解析html意义不是很大。

InputStream inputStream = null

HtmlParser htmlParser = new HtmlParser()

htmlParser.parse(new ByteArrayInputStream(page.getContentData()),

contentHandler, metadata, new ParseContext())

4.HtmlCleaner与XPath

HtmlCleaner最大的优点是:支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言,也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的,但是CSS Selector专门针对HTML,写法更简洁,而XPath则是通用的标准,可以精确到属性值。XPath有一定的学习成本,但是对经常需要编写爬虫的人来说,这点投入绝对是值得的。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/6094010.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-14
下一篇 2023-03-14

发表评论

登录后才能评论

评论列表(0条)

保存