import urllib
html = urllib.open(url)
text = html.read()
复杂些可以用requests库,支持各种请求类型,支持cookies,header等
再复杂些的可以用selenium,支持抓取javascript产生的文本
python爬取数据后储存数据到mysql数据库后添加新数据覆盖旧。1、先根据PRIMARY_KEY或UNIQUE字段查询库里是否存在数据(select)。
2、如果存在数据,则更改许要更改的字段(update)。
3、如果不粗在数据,则进行添加新数据(insert)。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)