用爬虫从网站爬下的数据怎么存储？_sql

显然不能直接储存，你还得解析出自己需要的内容。

比如我爬取某新闻网今日的国内新闻，那么我创建一个实体类，里面有属性：新闻标题，新闻时间，正文等等。解析出你需要的内容，封到实体里面，然后在dao层直接save到数据库即可

如果你爬下的是整个网页，这个好办，把它当做文件一样，用流 *** 作保存到电脑上即可。当然保存网页会遇到编码问题，这个很棘手。

使用mongodb很简单。

首先安装pymongo：

pip install pymongo

代码实现：用urllib2读取数据，打包成JSON格式插入到mongodb中。

from pymongo import MongoClient

try:

from urllib2 importurlopen, Request, HTTPError, URLError

except ImportError:

from urllib.request import urlopen, Request, HTTPError, URLError

result = []

try:

f = urlopen('http://www.dynamsoft.com', timeout=3)

while 1:

tmp = f.read(10240)

if len(tmp) == 0:

break

欢迎分享，转载请注明来源：内存溢出

用爬虫从网站爬下的数据怎么存储？