可以通过正则表达式去除html标签
import java.util.regex.Matcherimport java.util.regex.Pattern
public class HtmlUtil {
private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>" // 定义script的正则表达式
private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>" // 定义style的正则表达式
private static final String regEx_html = "<[^>]+>" // 定义HTML标签的正则表达式
private static final String regEx_space = "\\s*|\t|\r|\n"//定义空格回车换行符
/**
* @param htmlStr
* @return
* 删除Html标签
*/
public static String delHTMLTag(String htmlStr) {
Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE)
Matcher m_script = p_script.matcher(htmlStr)
htmlStr = m_script.replaceAll("") // 过滤script标签
Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE)
Matcher m_style = p_style.matcher(htmlStr)
htmlStr = m_style.replaceAll("") // 过滤style标签
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE)
Matcher m_html = p_html.matcher(htmlStr)
htmlStr = m_html.replaceAll("") // 过滤html标签
Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE)
Matcher m_space = p_space.matcher(htmlStr)
htmlStr = m_space.replaceAll("") // 过滤空格回车标签
return htmlStr.trim() // 返回文本字符串
}
public static String getTextFromHtml(String htmlStr){
htmlStr = delHTMLTag(htmlStr)
htmlStr = htmlStr.replaceAll(" ", "")
htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1)
return htmlStr
}
public static void main(String[] args) {
String str = "<div style='text-align:center'> 整治“四风” 清弊除垢<br/><span style='font-size:14px'> </span><span style='font-size:18px'>公司召开党的群众路线教育实践活动动员大会</span><br/></div>"
System.out.println(getTextFromHtml(str))
}
}
针对于你提的问题,如果想去掉class和style属性必须对所需要去掉属性的标签增加id以你提供的代码为例,首先需要增加id属性,修改后如下:
<div class="content" id=“testdiv”>
<div id="t1">
文本1
</div>
<p class="bbb" id=“testp”>
文本2.....<font color='#00000'>文本3</font><span style="line-height:24px">文本4</span>
</p>
</div>
然后编写对应js代码,代码如下:
function delClass(){
$("#testdiv").removeClass("content")
$("#testp").removeClass("bbb")
}
上述代码可以去除Class
注:
如果程序为进入页面后调用则需要在body中增加onload方法也就是:onload="delClass()"
如果为点击式触发则在页面增加按钮,对按钮总方法onClick方法指定删除的js方法
希望回答对你有用。
HTML分析是一个比较复杂的工作,Java世界主要有几款比较方便的分析工具:
1.Jsoup
Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是,可以用于支持用jQuery中css selector的方式选取元素,这对于熟悉js的开发者来说基本没有学习成本。
String content = "blabla"
Document doc = JSoup.parse(content)
Elements links = doc.select("a[href]")
Jsoup还支持白名单过滤机制,对于网站防止XSS攻击也是很好的。
2.HtmlParser
HtmlParser的功能比较完备,也挺灵活,但谈不上方便。这个项目很久没有维护了,最新版本是2.1。HtmlParser的核心元素是Node,对应一个HTML标签,支持getChildren()等树状遍历方式。HtmlParser另外一个核心元素是NodeFilter,通过实现NodeFilter接口,可以对页面元素进行筛选。这里有一篇HtmlParser的使用文章:使用 HttpClient 和 HtmlParser 实现简易爬虫。
3.Apache tika
tika是专为抽取而生的工具,还支持PDF、Zip甚至是Java Class。使用tika分析HTML,需要自己定义一个抽取内容的Handler并继承org.xml.sax.helpers.DefaultHandler,解析方式就是xml标准的方式。crawler4j中就使用了tika作为解析工具。SAX这种流式的解析方式对于分析大文件很有用,我个人倒是认为对于解析html意义不是很大。
InputStream inputStream = nullHtmlParser htmlParser = new HtmlParser()
htmlParser.parse(new ByteArrayInputStream(page.getContentData()),
contentHandler, metadata, new ParseContext())
4.HtmlCleaner与XPath
HtmlCleaner最大的优点是:支持XPath的方式选取元素。XPath是一门在XML中查找信息的语言,也可以用于抽取HTML元素。XPath与CSS Selector大部分功能都是重合的,但是CSS Selector专门针对HTML,写法更简洁,而XPath则是通用的标准,可以精确到属性值。XPath有一定的学习成本,但是对经常需要编写爬虫的人来说,这点投入绝对是值得的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)