我一直在问自己同样的问题,在努力遵循这里和其他地方的建议以使IronPython和BeautifulSoup与我现有的代码很好地配合使用后,我决定寻找替代的本机.NET解决方案。BeautifulSoup是一段很棒的代码,起初它看起来似乎没有可与.NET相提并论的东西,但是后来我找到了HTML
Agility
Pack,并且我认为我确实比BeautifulSoup获得了一些可维护性。它采用干净或简洁的HTML,并从中生成优雅的XML
DOM,可以通过XPath查询。使用几行代码,您甚至可以取回原始Xdocument,然后在LINQ to
XML中编写查询。老实说,如果您要进行网络抓取,那么这就是您可能会找到的最干净的解决方案。
编辑
这是一个简单的示例(阅读:一点也不鲁棒),它解析了美国众议院的假期时间表:
using System;using System.Collections.Generic;using HtmlAgilityPack;namespace GovParsingTest{ class Program { static void Main(string[] args) { HtmlWeb hw = new HtmlWeb(); string url = @"http://www.house.gov/house/House_Calendar.shtml"; Htmldocument doc = hw.Load(url); HtmlNode docNode = doc.documentNode; HtmlNode div = docNode.SelectSingleNode("//div[@id='primary']"); HtmlNodeCollection tableRows = div.SelectNodes(".//tr"); foreach (HtmlNode row in tableRows) { HtmlNodeCollection cells = row.SelectNodes(".//td"); HtmlNode dateNode = cells[0]; HtmlNode eventNode = cells[1]; while (eventNode.HasChildNodes) { eventNode = eventNode.FirstChild; } Console.WriteLine(dateNode.InnerText); Console.WriteLine(eventNode.InnerText); Console.WriteLine(); } //Console.WriteLine(div.InnerHtml); Console.ReadKey(); } }}
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)