比如我爬取某新闻网今日的国内新闻,那么我创建一个实体类,里面有属性:新闻标题,新闻时间,正文等等。解析出你需要的内容,封到实体里面,然后在dao层直接save到数据库即可
如果你爬下的是整个网页,这个好办,把它当做文件一样,用流 *** 作保存到电脑上即可。当然保存网页会遇到编码问题,这个很棘手。
可以用来保存采集到的数据啊。简单来讲,爬虫就是一个探测机器,它的基本 *** 作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)