我们通常是使用爬虫爬取网站信息,其实网络爬虫是一种应用于搜索引擎的程序。使用python爬虫可以将一个网站的所有内容与链接进行阅读。例如我们每日都要获取新闻信息,利用python爬虫就可以帮助我们爬取我们需要的信息内容。下面我们一起来实战练习吧。
1、爬虫思路:
定义编码形式并引入模块;
请求新闻网站URL,获取其text文本并解析;
通过select选择器定位解析文件指定的元素,返回一个列表并遍历;
获取相关内容。
2、具体实现
第一步:使用UTF-8编码形式定义文件(避免一些编码错误导致中文乱码),并引入相关模块。
# coding:utf-8 # 引入相关模块 import requests from bs4 import BeautifulSoup url = "http://news.qq.com/"
第二步:请求新闻网站URL,获取其text文本
wbdata = requests.get(url).text
第三步:解析获取到的文本
soup = BeautifulSoup(wbdata,'lxml')
第四步:通过select选择器定位解析文件指定的元素,返回一个列表
从解析文件中通过select选择器定位指定的元素,返回一个列表 news_titles = soup.select("div.text > em.f14 > a.linkto")
第五步:遍历返回的列表
for n in news_titles:
第六步:获取新闻标题及信息
# 提取出标题和链接信息 title = n.get_text() link = n.get("href") data = { '标题':title, '链接':link } print(data)
以上就是python爬虫爬取新闻的简单实现,大家可以尝试看看哦~更多python爬虫学习推荐:python爬虫教程。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)