所以我考虑使用XSLT来简化/转换HTML,使其更容易处理.
我遇到的问题是找不到我的桌子.所以我不知道它是否可以使用XSL样式表解析HTML.
顺便说一句,HTML文件具有这种外观(原理图,缺少标签):
<!DOCTYPE HTML PUBliC "-//W3C//DTD xhtml 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-Transitional.dtd"><HTML ID="ctl00_HTMLdocumento" xmlns="http://www.w3.org/1999/xhtml" lang="es-ES" xml:lang="es-ES"><div> some content </div><div ></div><div important"> <table> HERE IS THE DATA IM LOOKING FOR </table> </div></div>
根据要求,这是我的xsl
<?xml version="1.0" enCoding="UTF-8"?><xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/transform" version="1.0"> <xsl:template match="tbody"> tbody found,lets process it <xsl:for-each select="tr"> new tf found,lets process it </xsl:for-each> </xsl:template></xsl:stylesheet>
完整的HTML非常大,所以我不知道如何在这里展示它……我已经在Oxygen上测试了有效的文档,它说它有效.
提前致谢.
Gonso
在此之后,你仍然会遇到它将处理其他一切的问题.我不知道是否有更好的解决方案,但我认为你需要在tbody元素的路径上显式处理事情,比如
<xsl:template match="xhtml:HTML"> <xsl:apply-templates select="xhtml:body"/></xsl:template>
对于身体等同样的事情,直到你得到你的tbody匹配.
XPath还支持比上面特定子项更复杂的匹配.例如,匹配第三个子div标签可以完成
<xsl:template match="xhtml:div[3]">
并使用特定属性匹配元素
<xsl:template match="xhtml:div[@class='important']">
这里[]包含一个额外的条件,需要满足该元素才能被视为匹配.普通数字意味着索引匹配并只获取具有该索引的索引(索引是基于1的),@符号位于属性之前,但是您可以在那里使用任意复杂的XPath,因此您可以匹配很多你想要的任何子结构.
总结以上是内存溢出为你收集整理的我可以使用XSLT解析HTML吗?全部内容,希望文章能够帮你解决我可以使用XSLT解析HTML吗?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)