BeautifulSoup库的基本元素

BeautifulSoup库的基本元素,第1张

概述BeautifulSoup库 <html> <body> <p class='title'></p> </body></html> BeautifulSoup库是解析、遍历、维护、"标签树"的功能库 对标签的理解 <p class='title'></p><!--成对的尖括号和属性--> 导入beautifulsoup库 from bs4 import Beau BeautifulSoup库
<HTML>    <body>        <p class='Title'></p>    </body></HTML>

BeautifulSoup库是解析、遍历、维护、"标签树"的功能库

对标签的理解
<p class='Title'></p><!--成对的尖括号和属性-->
导入beautifulsoup库
from bs4 import BeautifulSoup
import bs4
构造解析HTML的BeautifulSoup对象
from bs4 import BeautifulSoupsoup1=BeautifulSoup("<HTML>data</HTML>","HTML.parser")soup2=BeautifulSoup(open("D://demo.HTML"),"HTML.parser")

BeautifulSoup库对应一个HTML/XML文档的全部内容

四种解析器
解析器 使用方法 条件
bs4的HTML解析器 BeautifulSoup(mk,‘HTML.parser‘) 安装bs4库
lxml的HTML解析器 BeautifulSoup(mk,‘lxml‘) pip install lxml
lxml的xml解析器 BeautifulSoup(mk,‘xml‘) pip install lxml
HTML5lib的解析器 BeautifulSoup(mk,‘HTML5lib‘) pip install HTML5lib
五种基本元素
基本元素 说明
Tag 标签,<>开头和</>结尾
name 标签的名字,格式 .name
Attribute 标签的属性,字典形式进行组织, .attrs
NavigatableString 标签内非属性字符串,格式 .string
Comment 标签内字符串注释部分
获取页面信息demo
from bs4 import BeautifulSoupimport requestsHTML=requests.get('http://python123.io/ws/demo.HTML').textsoup=Beautiful(demo,'HTML.parser')tag=soup.a#获取第一个a标签name=tag.name#'a',标签的名称parentname=soup.a.parent.name#获取父亲节点的名称attr=tag.attrs#属性值,字典attr['class']#访问对应标签的属性type(attr)#字典tag.a.string#标签之间的信息newsoup=BeautifulSoup('<b><!--This is a comment-->></b><p>This is not a comment</p>','HTML.parser')type(newsoup.b.string)#注释类型type(newsoup.p.string)#文本类型
总结

以上是内存溢出为你收集整理的BeautifulSoup库的基本元素全部内容,希望文章能够帮你解决BeautifulSoup库的基本元素所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1033301.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-24
下一篇 2022-05-24

发表评论

登录后才能评论

评论列表(0条)

保存