首先,将HTMLAgilityPack nuget软件包安装到您的项目中。
然后,例如:
HtmlAgilityPack.Htmldocument htmlDoc = new HtmlAgilityPack.Htmldocument();// There are various options, set as neededhtmlDoc.OptionFixNestedTags=true;// filePath is a path to a file containing the htmlhtmlDoc.Load(filePath);// Use: htmlDoc.LoadHtml(xmlString); to load from a string (was htmlDoc.LoadXML(xmlString)// ParseErrors is an ArrayList containing any errors from the Load statementif (htmlDoc.ParseErrors != null && htmlDoc.ParseErrors.Count() > 0){ // Handle any parse errors as required}else{ if (htmlDoc.documentNode != null) { HtmlAgilityPack.HtmlNode bodyNode = htmlDoc.documentNode.SelectSingleNode("//body"); if (bodyNode != null) { // Do something with bodyNode } }}
(注意:此代码仅是示例,不一定是最佳/唯一方法。请不要在自己的应用程序中盲目使用它。)
该Htmldocument.Load()方法还接受一个流,该流在与.NET框架中的其他面向流的类集成时非常有用。虽然
HtmlEntity.DeEntitize()是正确处理html实体的另一种有用方法。
Htmldocument这
HtmlNode是您最常使用的类。与XML解析器类似,它提供了接受XPath表达式的selectSingleNode和selectNodes方法。
注意
Htmldocument.Option??????布尔属性。这些控制Load和LoadXML方法处理HTML / XHTML的方式。
还有一个名为
HtmlAgilityPack.chm的已编译帮助文件,该文件对每个对象都有完整的引用。这通常在解决方案的基本文件夹中。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)