网络爬虫的存储方法――数据库,有什么作用

网络爬虫的存储方法――数据库,有什么作用,第1张

可以用来保存采集到的数据啊。
简单来讲,爬虫就是一个探测机器,它的基本 *** 作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

下载mysqlconnector库
然后把爬虫爬到的bai数据通过mysql里面的insert语句查到du数据库,当然也可以zhi建表dao,一般我没用python建表 是先建好再写数据的
import mysqlconnector
conn = mysqlconnectorconnect(
user='root',
password='root',
host='127001',
port='3306',
database='test_demo'
)
cursor = conncursor()
cursorexecute("INSERT INTO test_user(`uuid`,`user_name`,`user_level`) VALUES (%s,%s,%s)",[id, user_name, user_level])
cursorexecute("INSERT INTO tieba_user_detail(`user_name`,`user_exp`,`user_sex`,`tieba_age`,`tieba_note`,`user_favorites`,`user_fans`) VALUES (%s,%s,%s,%s,%s,%s,%s)",[user_name,user_exp,user_sex, tieba_age,tieba_note, user_favorites, user_fans])
print(' %s %s 数据保存成功 '%(user_rank,user_name))
conncommit()
cursorclose()

你不能直接存储一个类的实例啊,mongodb用bson存储数据,bson是json的binary形式,所以你只能存储javascript的基本类型、Object和Array这些东西。像beautiful soup里面的类的实例,你可以存储关键的数据,到你再需要用的时候,取出数据再构造一个新实例,而不是把这个实例存入数据库。

把爬到的数据用三引号接收再想办法处理呢

a="""aaa"aa"aa'aa'"""  #a为你实际爬到的数据
b = """%s""" %(a)
print b 
#打印 '"aaa"aa"aa\'aa\''


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/13401781.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-29
下一篇 2023-07-29

发表评论

登录后才能评论

评论列表(0条)

保存