python3 可谓是做爬虫的利器,既然是利器就能想你所想,比如我们如何从 URL 中提取域名、路径、参数等数据呢?
正则
正则是可以!不过在程序界一直流传着一个说法。有一个程序我们用正则写吧,那么你就有两个问题了。。。
除了正则,Python 标准模块 urllib
也提供类型解决方案(Python2 中的是urlparse 这个包,在 python3 中都整合到 urllib
中了)
In [1]: from urllib.parse import urlparse In [2]: url = 'https://blog.csdn.net/yilovexing/article/details/96432467' In [3]: urlparse(url) Out[3]: ParseResult(scheme='https',netloc='blog.csdn.net',path='/yilovexing/article/details/96432467',params='',query='',fragment='')In [4]: urlparse(url).netloc Out[4]: 'blog.csdn.net'In [5]: urlparse(url).scheme Out[5]: 'https'In [6]: urlparse(url).path Out[6]: '/yilovexing/article/details/96432467'
总结 以上是内存溢出为你收集整理的Python3 从 URL 中提取域名、路径、参数等数据全部内容,希望文章能够帮你解决Python3 从 URL 中提取域名、路径、参数等数据所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)