IronPython和BeautifulSoup,win32应用程序

IronPython和BeautifulSoup,win32应用程序,第1张

IronPython和BeautifulSoup,win32应用程序

我一直在问自己同样的问题,在努力遵循这里和其他地方的建议以使IronPython和BeautifulSoup与我现有的代码很好地配合使用后,我决定寻找替代的本机.NET解决方案。BeautifulSoup是一段很棒的代码,起初它看起来似乎没有可与.NET相提并论的东西,但是后来我找到了HTML
Agility
Pack,

并且我认为我确实比BeautifulSoup获得了一些可维护性。它采用干净或简洁的HTML,并从中生成优雅的XML
DOM,可以通过XPath查询。使用几行代码,您甚至可以取回原始Xdocument,然后在LINQ to
XML中编写查询。老实说,如果您要进行网络抓取,那么这就是您可能会找到的最干净的解决方案。

编辑

这是一个简单的示例(阅读:一点也不鲁棒),它解析了美国众议院的假期时间表:

using System;using System.Collections.Generic;using HtmlAgilityPack;namespace GovParsingTest{    class Program    {        static void Main(string[] args)        { HtmlWeb hw = new HtmlWeb(); string url = @"http://www.house.gov/house/House_Calendar.shtml"; Htmldocument doc = hw.Load(url); HtmlNode docNode = doc.documentNode; HtmlNode div = docNode.SelectSingleNode("//div[@id='primary']"); HtmlNodeCollection tableRows = div.SelectNodes(".//tr"); foreach (HtmlNode row in tableRows) {     HtmlNodeCollection cells = row.SelectNodes(".//td");     HtmlNode dateNode = cells[0];     HtmlNode eventNode = cells[1];     while (eventNode.HasChildNodes)     {         eventNode = eventNode.FirstChild;     }     Console.WriteLine(dateNode.InnerText);     Console.WriteLine(eventNode.InnerText);     Console.WriteLine(); } //Console.WriteLine(div.InnerHtml); Console.ReadKey();        }    }}


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5654189.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存