python爬虫(期末项目:爬取壁纸)

python爬虫(期末项目:爬取壁纸),第1张

python爬虫(期末项目:爬取壁纸)

1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等 
Request模块缺陷:不能执行JS 和CSS 代码
 
2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等

3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以wb的方式写入文件


4、保存数据
数据库(MySQL,Mongdb、Redis)
文件

一张一张地找壁纸效率太低,所以直接利用爬虫下载整套。

http://sj.zol.com.cn/bizhi/

(1)

(2)

(3)

(4)

(5)

(6)

 

 

 

 

 

 

 

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5670716.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存