简单的电子邮件爬虫Python代码_python

概述简单的电子邮件爬虫Python代码

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家，也给大家做个参考。

import requestsimport retry:    from urllib.parse import urljoinexcept importError:    from urlparse import urljoin# regexemail_re = re.compile(r'([\w\.,][email protected][\w\.,]+\.\w+)')link_re = re.compile(r'href="(.*?)"')def crawl(url):    result = set()    req = requests.get(url)    # Check if successful    if(req.status_code != 200):        return []    # Find links    links = link_re.findall(req.text)    print("\nFound {} links".format(len(links)))    # Search links for emails    for link in links:        # Get an absolute URL for a link        link = urljoin(url,link)        # Find all emails on current page        result.update(email_re.findall(req.text))    return resultif __name__ == '__main__':    emails = crawl('http://www.realpython.com')    print("\nScrapped e-mail addresses:")    for email in emails:        print(email)    print("\n")

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容，希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的简单的电子邮件爬虫Python代码全部内容，希望文章能够帮你解决简单的电子邮件爬虫Python代码所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1198581.html

简单的电子邮件爬虫Python代码

发表评论

评论列表（0条）