# -- coding:utf-8 --
#标签 *** 作
from bs4 import BeautifulSoup
import urllibrequest
import re
#如果是网址,可以用这个办法来读取网页
#html_doc = ""
#req = urllibrequestRequest(html_doc)
#webpage = urllibrequesturlopen(req)
#html = webpageread()
html="""
"""
soup = BeautifulSoup(html, 'htmlparser') #文档对象
# 类名为xxx而且文本内容为hahaha的div
for k in soupfind_all('div',class_='atcTit_more'):#,string='更多'
print(k)
还记得之前我们在第一个爬虫案例中使用过的 BeatifulSoup 吗?这节课我们就来正式学习一下 BeatifulSoup 这个页面提取工具,通过本节课的学习你会熟悉使用 BeatifulSoup 提取常见的网页元素。
使用 Requests 获取到页面源码后,我们需要一种工具来帮助我们结构化这些数据,从而方便我们检索需要的某个或者某些数据内容。BeautifulSoup 库就是这样一种工具,可以很方便我们对数据进行解析和数据的提取。
BeautifulSoup 的名字来源于大家耳熟能详的一部外国名著里面的小说,这部小说的名字叫做《爱丽丝梦游仙境》。从名字就可以看出,发明这个库的作者的目的是为了让使用这个库的人,心情舒畅,使用起来很方便舒适,接口简单人性化。
因为 BeautifulSoup 并不是 Python 内置的库,我们需要额外安装它。我们现在普遍使用的版本是 BeautifulSoup4, 简称作 bs4。
使用 pip 来安装 BeautifulSoup 很简单,打开 CMD 窗口运行下面这条命令:
安装成功后,如图所示:
解析器是一种帮我们结构化网页内容的工具,通过解析器,我们可以得到结构化的数据,而不是单纯的字符,方便我们解析和查找数据。
BeautifulSoup 的解析器有 htmlparse,html5lib,lxml 等。BeautifulSoup 本身支持的标准库是 htmlparse,html5lib。但是,lxml 的性能非常棒,以及拥有良好的容错能力,现在被广泛的使用。
解析器对比:
安装 lxml 和安装 BeautifulSoup 类似,同样只需一行命令就好:
安装成功后,如下所示:
BeautifulSoup 将 HTML 转换成树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种:
下面我们一一来看下这四类对象:
下面我们就来具体使用一下 BeautifulSoup 这个解析工具,我们首先模仿 HTML 页面结构创建一个字符串:
工作中,我们一般经常的使用的方法就是 find_all 方法。但是,除了上述我们讲的 find_all 方法之外,BeautifulSoup 还有其他一些以 find 开头的方法,由于不是经常使用,这里就简单的列举一下,如果同学们感兴趣的话可以自己深入了解下。
水平有限,不会造轮子,只为学习。
在原来写端口扫描的基础上进一步爬取web服务的title信息,方便收集信息。
适用于在外网收集资产形成IP字典后去批量获取title,意在最快地寻找脆弱点。
自行安装BeautifulSoup4、requests库。
V10
python3 写的单线程爬取web系统的title信息。
注解
1使用BeautifulSoup4库来解析HTML,爬取title信息;
2打印title时,带有颜色的输出;
3在开放443、4433、8443端口时,采用>
以上就是关于Python如何用beautifulsoup库获取如下所示中的第二个value的值全部的内容,包括:Python如何用beautifulsoup库获取如下所示中的第二个value的值、10《Python 原生爬虫教程》BeatifulSoup 的使用、python3 获取title的编写等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)