用爬虫从网站爬下的数据怎么存储?

用爬虫从网站爬下的数据怎么存储?,第1张

显然不能直接储存,你还得解析出自己需要的内容。

比如我爬取某新闻网今日的国内新闻,那么我创建一个实体类,里面有属性:新闻标题,新闻时间,正文等等。解析出你需要的内容,封到实体里面,然后在dao层直接save到数据库即可

如果你爬下的是整个网页,这个好办,把它当做文件一样,用流 *** 作保存到电脑上即可。当然保存网页会遇到编码问题,这个很棘手。

使用mongodb很简单。

首先安装pymongo:

1

pip install pymongo

代码实现:用urllib2读取数据,打包成JSON格式插入到mongodb中。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

from pymongo import MongoClient

try:

from urllib2 importurlopen, Request, HTTPError, URLError

except ImportError:

from urllib.request import urlopen, Request, HTTPError, URLError

result = []

try:

f = urlopen('http://www.dynamsoft.com', timeout=3)

while 1:

tmp = f.read(10240)

if len(tmp) == 0:

break


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9895099.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存