python bs4 BeautifulSoup_python

概述Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。安装命令：pip install beautifulsoup4 解析器主要的解析器,以及它们的优缺点如下：安装命令： pip install lxml pip install html5lib requests r

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装

命令：pip install beautifulsoup4

解析器

主要的解析器,以及它们的优缺点如下：

安装命令：

pip install lxml pip install HTML5lib

requests

requests的底层实现就是urllib, requests能够自动帮助我们解压(Gzip压缩的等)网页内容安装命令：pip install requests 推荐使用 response.content.deocde() 的方式获取响应的HTML页面

pandas

安装命令：pip install pandas 基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

数据结构：

SerIEs：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近，其区别是：List中的元素可以是不同的数据类型，而Array和SerIEs中则只允许存储相同的数据类型，这样可以更有效的使用内存，提高运算效率。 Time- SerIEs：以时间为索引的SerIEs。 DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为SerIEs的容器。以下的内容主要以DataFrame为主。 Panel ：三维的数组，可以理解为DataFrame的容器。

使用

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag NavigableString BeautifulSoup Comment

Tag：Tag 对象与XML或HTML原生文档中的tag相同，tag中最重要的属性: name和attributes

从网页中获取指定标签、属性值，取值方式：

通过标签名获取：tag.name tag对应的type是<class ‘bs4.element.Tag‘> 通过属性获取：tag.attrs 获取标签属性：tag.get(‘属性名‘) 或 tag[‘属性名‘]

功能标签

stripped_strings：输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容标准输出页面：soup.prettify()

查找元素：

find_all(class_="class") 返回的是多个标签 find(class_="class") 返回一个标签 select_one() 返回一个标签 select() 返回的是多个标签 soup = BeautifulSoup(backdata,‘HTML.parser‘)　　#转换为BeautifulSoup形式属性 soup.find_all(‘标签名‘，attrs{‘属性名‘:‘属性值‘} ) #返回的是列表 limitk 控制 find_all 返回的数量 recursive=Flase 返回tag的直接子元素

demo

import sysimport ioimport requestsfrom bs4 import BeautifulSoup as bsimport pandas as pdimport numpy as npfrom py_teldcore import sqlserver_db as dbsys.stdout = io.TextIOWrapper(sys.stdout.buffer,enCoding=‘gb18030‘)url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.HTML"def get_soap():    try:        r = requests.get(url)        soap = bs(r.text,"lxml")        return soap    except Exception as e:        print(e)        return "Request Error"def save2cvs(data,path):    result_weather = pd.DataFrame(data,columns=[‘date‘,‘tq‘,‘temp‘,‘wind‘])    result_weather.to_csv(path,enCoding=‘gbk‘)    print(‘save weather sucess‘)def save2mssql(data):    sql = "Insert into Weather(date,tq,temp,wind) values(%s,%s,%s)"    data_List = np.ndarray.toList(data)    # sqlvalues = List()    # for data in data_List:    #     sqlvalues.append(tuple(data))    sqlvalues = [tuple(iq) for iq in data_List]    try:        db.exec_sqlmany(sql,sqlvalues)    except Exception as e:        print(e)def get_data():    soap = get_soap()    print(soap)    all_weather = soap.find("div",class_="wdetail").find("table").find_all("tr")    data = List()    for tr in all_weather[1:]:        td_li = tr.find_all("td")        for td in td_li:            s = td.get_text()            data.append("".join(s.split()))    res = np.array(data).reshape(-1,4)    return resif __name__ == "__main__":    data = get_data()    save2mssql(data)    print("save2 sqlserver ok!")

参考资料

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html https://www.jianshu.com/p/95b1bc3b2f73 http://cn.python-requests.org/zh_CN/latest/ https://blog.csdn.net/qq_31903733/article/details/85269367 @H_818_301@ 总结

以上是内存溢出为你收集整理的python bs4 BeautifulSoup全部内容，希望文章能够帮你解决python bs4 BeautifulSoup所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/1191695.html

python bs4 BeautifulSoup

发表评论

评论列表（0条）