python bs4 BeautifulSoup

python bs4 BeautifulSoup,第1张

概述Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。 安装 命令:pip install beautifulsoup4  解析器 主要的解析器,以及它们的优缺点如下: 安装命令: pip install lxml pip install html5lib requests  r

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。

安装

命令:pip install beautifulsoup4 

解析器

主要的解析器,以及它们的优缺点如下:

安装命令:

pip install lxml pip install HTML5lib

requests

 requests的底层实现就是urllib, requests能够自动帮助我们解压(Gzip压缩的等)网页内容 安装命令:pip install requests 推荐使用 response.content.deocde() 的方式获取响应的HTML页面

pandas

安装命令:pip install pandas  基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

 数据结构:

SerIEs:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和SerIEs中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。 Time- SerIEs:以时间为索引的SerIEs。 DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为SerIEs的容器。以下的内容主要以DataFrame为主。 Panel :三维的数组,可以理解为DataFrame的容器。

使用

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag  NavigableString  BeautifulSoup  Comment 

Tag:Tag 对象与XML或HTML原生文档中的tag相同,tag中最重要的属性: name和attributes

 

从网页中获取指定标签、属性值,取值方式:

通过标签名获取:tag.name        tag对应的type是<class ‘bs4.element.Tag‘> 通过属性获取:tag.attrs 获取标签属性:tag.get(‘属性名‘)  或  tag[‘属性名‘]

功能标签

stripped_strings:输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容 标准输出页面:soup.prettify()

查找元素:

find_all(class_="class")    返回的是多个标签 find(class_="class")    返回一个标签 select_one()    返回一个标签 select()    返回的是多个标签 soup = BeautifulSoup(backdata,‘HTML.parser‘)  #转换为BeautifulSoup形式属性 soup.find_all(‘标签名‘,attrs{‘属性名‘:‘属性值‘}  )     #返回的是列表 limitk 控制 find_all 返回的数量 recursive=Flase 返回tag的直接子元素

demo

 

import sysimport ioimport requestsfrom bs4 import BeautifulSoup as bsimport pandas as pdimport numpy as npfrom py_teldcore import sqlserver_db as dbsys.stdout = io.TextIOWrapper(sys.stdout.buffer,enCoding=‘gb18030‘)url = "http://www.tianqihoubao.com/lishi/hefei/month/201812.HTML"def get_soap():    try:        r = requests.get(url)        soap = bs(r.text,"lxml")        return soap    except Exception as e:        print(e)        return "Request Error"def save2cvs(data,path):    result_weather = pd.DataFrame(data,columns=[‘date‘,‘tq‘,‘temp‘,‘wind‘])    result_weather.to_csv(path,enCoding=‘gbk‘)    print(‘save weather sucess‘)def save2mssql(data):    sql = "Insert into Weather(date,tq,temp,wind) values(%s,%s,%s)"    data_List = np.ndarray.toList(data)    # sqlvalues = List()    # for data in data_List:    #     sqlvalues.append(tuple(data))    sqlvalues = [tuple(iq) for iq in data_List]    try:        db.exec_sqlmany(sql,sqlvalues)    except Exception as e:        print(e)def get_data():    soap = get_soap()    print(soap)    all_weather = soap.find("div",class_="wdetail").find("table").find_all("tr")    data = List()    for tr in all_weather[1:]:        td_li = tr.find_all("td")        for td in td_li:            s = td.get_text()            data.append("".join(s.split()))    res = np.array(data).reshape(-1,4)    return resif __name__ == "__main__":    data = get_data()    save2mssql(data)    print("save2 sqlserver ok!")

  

 

参考资料

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html https://www.jianshu.com/p/95b1bc3b2f73 http://cn.python-requests.org/zh_CN/latest/ https://blog.csdn.net/qq_31903733/article/details/85269367 @H_818_301@ 总结

以上是内存溢出为你收集整理的python bs4 BeautifulSoup全部内容,希望文章能够帮你解决python bs4 BeautifulSoup所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/1191695.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存