如何用Python爬虫抓取网页内容?_sql

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

VBA网抓常用方法

1、xmlhttp/winhttp法：

用xmlhttp/winhttp模拟向服务器发送请求，接收服务器返回的数据。

优点：效率高，基本无兼容性问题。

缺点：需要借助如fiddler的工具来模拟http请求。

2、IE/webbrowser法：

创建IE控件或webbrowser控件，结合htmlfile对象的方法和属性，模拟浏览器 *** 作，获取浏览器页面的数据。

优点：这个方法可以模拟大部分的浏览器 *** 作。所见即所得，浏览器能看到的数据就能用代码获取。

缺点：各种d窗相当烦人，兼容性也确实是个很伤脑筋的问题。上传文件在IE里根本无法实现。

3、QueryTables法：

因为它是excel自带，所以勉强也算是一种方法。其实此法和xmlhttp类似，也是GET或POST方式发送请求，然后得到服务器的response返回到单元格内。

优点：excel自带，可以通过录制宏得到代码，处理table很方便

。代码简短，适合快速获取一些存在于源代码的table里的数据。

缺点：无法模拟referer等发包头

也可以利用采集工具进行采集网页端的数据，无需写代码。

这种是工作上的问题把。

没给点好处很难做。

需要一个定时任务。不断去扫这个页面。一有更新马上获取。

获取需要用到解析html标签的jar包。

很简单。但是不想在这浪费时间给你写。

欢迎分享，转载请注明来源：内存溢出

如何用Python爬虫抓取网页内容?