python 爬虫

python 爬虫,第1张

完整的url语法格式:

协议://用户名@密码:子域名域名顶级域名:端口号/目录/文件名文件后缀参数=值#标识

2 、urlparse模块对url的处理方法

urlparse模块对url的主要处理方法有:urljoin/urlsplit/urlunsplit/urlparse等。该模块对url的定义采用六元组的形式:schema://netloc/path;parametersquery#fragment。其中,netloc包含下表的后4个属性

urlparse()

利用urlparse()方法对url进行解析,返回六元组;urlunparse()对六元组进行组合

urljoin()

利用urljoin()方法对绝对url地址与相对url地址进行拼合

       主要使用urljoin()比较常用——给出以下示例:   

>>>from urllibparse import urljoin

>>> urljoin(">

你是不是想在python里把中文变成链接中%E5%BE%85这种形式?直接用urlliburlencode({'word':'中文'})方法

而显示\xe5\xbe\x85\是因为你没有使用read()方法,加上后变成:'待解析网页'decode('gbk')encode('utf-8')read(),就是你熟悉的中文了。

不过,'待解析网页'decode('gbk')encode('utf-8')这句我要吐槽一下,网页明显是utf-8编码,你在文件开头声明utf-8编码就可以了,这一句是多余的。在这基础上读取网页直接用 '待解析网页'read()

以上就是关于python 爬虫全部的内容,包括:python 爬虫、怎么样用python编写一个程序语言登录路由器获取器 *** 作页面内容、python中中怎么解决url变成文本格式后不能点击等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9497214.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存