如何将html转换成xml，跪求请说明具体算法和用到的工具_随笔

我给你些我的建议吧

HTML的语法格式比XML宽松多了，真正XML格式的网页是XHTML，也就是下一代HTML，他的格式和XML差不多，很严谨的。

如果你不想利用某些HTML和XML互转工具，自己编的话，有一定难度。

1.HTML的节点可以没末节点，你需要不停扫描<,>,/,这三个符号以检查是否漏掉末节点，并补充。

2.HTML节点还可以不规则嵌套，你需要对已读入节点进行顺序存储，或用栈的数据结构来存储，并验证其层次正确性，最终正确顺序的节点，期间还得缓存节点值，或属性值。

3.HTML不同于XML，许多HTML节点有特殊的意义，许多HTML节点比如<b>,<hr/>都需要经过特殊处理才行。

在技术上，为保证性能，还要在一下方面有加强。

1.强大的字符串扫描，和解析器，此工作也巨大，但网上源码很多，建议到google英文里搜索，HTML

parser，XML

parser（解析器），有很多c#，java，c++的源代码可以利用，没有强大的解析器，跟本无法读懂文件。

2.System.Xml空间的详细运用，除了简单的XMLWriter，还必须学会XMLDocument，XmlNode，能够动态 *** 控XML。还有Xpath技术， *** 作XMl很有效率。

3.适当还会运用到正则表达式，来处理字符串匹配问题，尤其是节点的 *** 作，即使是再好的字符串查找算法，有时也不如正则表达式，因此system.Text

中的Regex类要掌握好。

4.会控制WinForm中的WebBrower控件

当然，即使你不打算自己做，或已找到了源代码，要想读懂，也必须要以上的知识。

至于工具，网上有，源码还哪找，有java的，但下载不下来。

这是著名的W3C（Html，xml等技术的创始组织）的转换工具，里面也有一些介绍，相信会有用的。

有一个用C#编的转换器，但付费后才可看到源代码

还有一些软件，stylus的产品不错！

java中利用HtmlAgilityPack API就可以把html解析成xml了。

在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、

HtmlNode和HtmlWeb等。

其流程一般是先获取HTML，这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容，或者也可以HtmlWeb的Get()或Load()方法来加载网络上的URL对应的HTML。

得到了HtmlDocument的实例之后，就可以用HtmlDocument的DocumentNode属性，这是整个HTML文档的根节点，它本身也是一个HtmlNode，然后就可以利用HtmlNode的SelectNodes()方法返回多个HtmlNode的集合对象HtmlNodeCollection，也可以利用HtmlNode的SelectSingleNode()方法返回单个HtmlNode。

HtmlAgilityPack确实是一个功能强大、体积小的开源HTML解析类库，在本篇仅仅是介绍了其中几个类的用法，但光这些就足以供周公快速实现了许久没有实现的功能，如果让周公用正则表达式来实现类似的功能，时间肯定要比用这个长得多。

很简单

如果是java

用DOM4J

C#应该也可以用

或JDOM

首先写个方法截取你想要的标签

比如你这个STRING型的字符串

也就是段HTML

就截取他的标签就可以

然后再截取标签的内容.

这个方法如果通用

一个循环就可以搞定.

选好到标签名

和内容

然后创建一个XML文件

然后添加内容

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/6149192.html

如何将html转换成xml，跪求请说明具体算法和用到的工具

发表评论

评论列表（0条）

如何将html转换成xml，跪求 请说明具体算法和用到的工具

发表评论

评论列表（0条）

如何将html转换成xml，跪求请说明具体算法和用到的工具