用爬虫从网站爬下的数据怎么存储?

用爬虫从网站爬下的数据怎么存储?,第1张

显然不能直接储存,你还得解析出自己需要的内容

比如我爬取某新闻网今日的国内新闻,那么我创建一个实体类,里面有属性:新闻标题,新闻时间,正文等等。解析出你需要的内容,封到实体里面,然后在dao层直接save到数据库即可

如果你爬下的是整个网页,这个好办,把它当做文件一样,用流 *** 作保存到电脑上即可。当然保存网页会遇到编码问题,这个很棘手。

你所说的空白网页我不明白是什么意思,首先我给你说怎么实现一个简单的爬虫系统.

①首先,要确定你要爬虫的目的网页页面内容到底是什么,比如具体的信息内容

②根据你要爬虫的页面所要得到的数据,分析其源码数据结构,通过正则表达式或者jsoup匹配你要获得的数据.一般的网页你所要获得的数据是比较简单的,在源码就可以找到,有些内容是找不到的,这时候可能存在于js或者JSON中,这就要让你碰到问题具体解决

③对于抓取的网页内容进行整理,然后存入到数据库,可以进行查询内容,如果按时间排序,我的想法是,因为抓取的新闻信息肯定每次都相较于前面是最新的消息,那么,可以把最后采集的进行信息置顶排序.


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/6768259.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-28
下一篇 2023-03-28

发表评论

登录后才能评论

评论列表(0条)

保存