<HTML> <body> <p class='Title'></p> </body></HTML>
BeautifulSoup库是解析、遍历、维护、"标签树"的功能库
对标签的理解<p class='Title'></p><!--成对的尖括号和属性-->导入beautifulsoup库
from bs4 import BeautifulSoup
import bs4构造解析HTML的BeautifulSoup对象
from bs4 import BeautifulSoupsoup1=BeautifulSoup("<HTML>data</HTML>","HTML.parser")soup2=BeautifulSoup(open("D://demo.HTML"),"HTML.parser")
BeautifulSoup库对应一个HTML/XML文档的全部内容
四种解析器解析器 | 使用方法 | 条件 |
---|---|---|
bs4的HTML解析器 | BeautifulSoup(mk,‘HTML.parser‘) | 安装bs4库 |
lxml的HTML解析器 | BeautifulSoup(mk,‘lxml‘) | pip install lxml |
lxml的xml解析器 | BeautifulSoup(mk,‘xml‘) | pip install lxml |
HTML5lib的解析器 | BeautifulSoup(mk,‘HTML5lib‘) | pip install HTML5lib |
基本元素 | 说明 |
---|---|
Tag | 标签,<>开头和</>结尾 |
name | 标签的名字,格式 |
Attribute | 标签的属性,字典形式进行组织, |
NavigatableString | 标签内非属性字符串,格式 |
Comment | 标签内字符串注释部分 |
from bs4 import BeautifulSoupimport requestsHTML=requests.get('http://python123.io/ws/demo.HTML').textsoup=Beautiful(demo,'HTML.parser')tag=soup.a#获取第一个a标签name=tag.name#'a',标签的名称parentname=soup.a.parent.name#获取父亲节点的名称attr=tag.attrs#属性值,字典attr['class']#访问对应标签的属性type(attr)#字典tag.a.string#标签之间的信息newsoup=BeautifulSoup('<b><!--This is a comment-->></b><p>This is not a comment</p>','HTML.parser')type(newsoup.b.string)#注释类型type(newsoup.p.string)#文本类型总结
以上是内存溢出为你收集整理的BeautifulSoup库的基本元素全部内容,希望文章能够帮你解决BeautifulSoup库的基本元素所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)