BeautifulSoup库的基本元素_html-js-css

概述BeautifulSoup库 <html> <body> <p class='title'></p> </body></html> BeautifulSoup库是解析、遍历、维护、"标签树"的功能库对标签的理解 <p class='title'></p> 导入beautifulsoup库 from bs4 import Beau BeautifulSoup库

<HTML>    <body>        <p class='Title'></p>    </body></HTML>

BeautifulSoup库是解析、遍历、维护、"标签树"的功能库

对标签的理解

<p class='Title'></p><!--成对的尖括号和属性-->

导入beautifulsoup库

from bs4 import BeautifulSoup

import bs4

构造解析HTML的BeautifulSoup对象

from bs4 import BeautifulSoupsoup1=BeautifulSoup("<HTML>data</HTML>","HTML.parser")soup2=BeautifulSoup(open("D://demo.HTML"),"HTML.parser")

BeautifulSoup库对应一个HTML/XML文档的全部内容

四种解析器

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,‘HTML.parser‘)	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,‘lxml‘)	pip install lxml
lxml的xml解析器	BeautifulSoup(mk,‘xml‘)	pip install lxml
HTML5lib的解析器	BeautifulSoup(mk,‘HTML5lib‘)	pip install HTML5lib

五种基本元素

基本元素	说明
Tag	标签，<>开头和</>结尾
name	标签的名字，格式 .name
Attribute	标签的属性，字典形式进行组织, .attrs
NavigatableString	标签内非属性字符串，格式 .string
Comment	标签内字符串注释部分

获取页面信息demo

from bs4 import BeautifulSoupimport requestsHTML=requests.get('http://python123.io/ws/demo.HTML').textsoup=Beautiful(demo,'HTML.parser')tag=soup.a#获取第一个a标签name=tag.name#'a'，标签的名称parentname=soup.a.parent.name#获取父亲节点的名称attr=tag.attrs#属性值，字典attr['class']#访问对应标签的属性type(attr)#字典tag.a.string#标签之间的信息newsoup=BeautifulSoup('<b><!--This is a comment-->></b><p>This is not a comment</p>','HTML.parser')type(newsoup.b.string)#注释类型type(newsoup.p.string)#文本类型

总结

以上是内存溢出为你收集整理的BeautifulSoup库的基本元素全部内容，希望文章能够帮你解决BeautifulSoup库的基本元素所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/1033301.html