如何使用HTML Agility Pack_随笔

如何使用HTML Agility Pack

首先，将HTMLAgilityPack nuget软件包安装到您的项目中。

然后，例如：

HtmlAgilityPack.Htmldocument htmlDoc = new HtmlAgilityPack.Htmldocument();// There are various options, set as neededhtmlDoc.OptionFixNestedTags=true;// filePath is a path to a file containing the htmlhtmlDoc.Load(filePath);// Use:  htmlDoc.LoadHtml(xmlString);  to load from a string (was htmlDoc.LoadXML(xmlString)// ParseErrors is an ArrayList containing any errors from the Load statementif (htmlDoc.ParseErrors != null && htmlDoc.ParseErrors.Count() > 0){    // Handle any parse errors as required}else{    if (htmlDoc.documentNode != null)    {        HtmlAgilityPack.HtmlNode bodyNode = htmlDoc.documentNode.SelectSingleNode("//body");        if (bodyNode != null)        { // Do something with bodyNode        }    }}

（注意：此代码仅是示例，不一定是最佳/唯一方法。请不要在自己的应用程序中盲目使用它。）

该Htmldocument.Load()方法还接受一个流，该流在与.NET框架中的其他面向流的类集成时非常有用。虽然

HtmlEntity.DeEntitize()

是正确处理html实体的另一种有用方法。

Htmldocument

这

HtmlNode

是您最常使用的类。与XML解析器类似，它提供了接受XPath表达式的selectSingleNode和selectNodes方法。

注意

Htmldocument.Option??????

布尔属性。这些控制Load和LoadXML方法处理HTML / XHTML的方式。

还有一个名为

HtmlAgilityPack.chm

的已编译帮助文件，该文件对每个对象都有完整的引用。这通常在解决方案的基本文件夹中。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/4894667.html

如何使用HTML Agility Pack

发表评论

评论列表（0条）