1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等
Request模块缺陷:不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以wb的方式写入文件
4、保存数据
数据库(MySQL,Mongdb、Redis)
文件
一张一张地找壁纸效率太低,所以直接利用爬虫下载整套。
http://sj.zol.com.cn/bizhi/
(1)
(2)
(3)
(4)
(5)
(6)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)