从Ruby到Python：Crawlers [关闭]_随笔

从Ruby到Python：Crawlers [关闭]

好

主要是，您必须将“抓取器”
/抓取器（将从Web服务器下载文件/数据的python库/程序/函数）和将读取此数据并解释数据的解析器分开。就我而言，我必须抓取并获得一些“公开”的政府信息，但这些信息对下载/数据不友好。对于这个项目，我使用了scrapy
[1]。

主要是设置“ starter_urls”，即我的机器人将抓取/获取的URL，并在使用函数“解析器”检索/解析此数据之后。

对于解析/检索，您将需要一些html，lxml提取器，因为90％的数据就是这样。

现在关注您的问题：

用于数据爬网

用于解析数据

并且请记住“抓取”，抓取不仅适用于网络，也适用于电子邮件。您可以在此处查看有关此问题的另一个问题[6]

[1] = http://scrapy.org/

[2] -http://docs.python-requests.org/en/latest/

[3]
-http://docs.python.org/library/urllib.html

[4] -http://lxml.de/

[5]
-http://www.crummy.com/software/BeautifulSoup/

[6]
-Python读取我的Outlook电子邮件邮箱并解析消息

欢迎分享，转载请注明来源：内存溢出

从Ruby到Python：Crawlers [关闭]