百度热搜链接
本章要点:
pandas存储excel
- pandas的使用
- 百度热搜代码
pandas的使用方法
安装pandas库:pin3 install pandas
import pandas #导入pandas库 baidu_data = [] #创建个空列表 baidu_data.append({ #要存储的内容以字典的形式追加到列表里 'title':value, #'title'列名 value 值 'url':value }) # print(baidu_data) baiduexcel = pandas.Dataframe(baidu_data)#利用列表里的字典创建Dataframe (输出为excel表格样式) baiduexcel.to_excel('百度热搜.xlsx',index=False) #index=False 去除excel表格的第一列索引百度热搜代码
百度热搜代码:
import requests,pandas from lxml import html url = 'https://top.baidu.com/board?tab=realtime' #目标网页 res = requests.get(url).text dom = html.etree.HTML(res) #解析成能被xpath识别的对象 datas = dom.xpath("//div[@style='margin-bottom:20px']/div/div[2]/a")#获取标题的公共部分(标题+url) # print(datas) baidu_data = [] for i in datas: # print(i) title = i.xpath("div[@class='c-single-text-ellipsis']/text()")[0].strip()#标题 url = i.xpath("@href")[0]#链接 # print(title,url) baidu_data.append({ 'title':title, 'url':url }) # print(baidu_data) baiduexcel = pandas.Dataframe(baidu_data) #利用列表里的字典创建Dataframe (输出为excel表格样式) # print(baiduexcel) baiduexcel.to_excel('百度热搜.xlsx',index=False) #index=False 去除excel表格的第一列索引
效果图:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)