在这个大数据时代,数据的基础资源有很多,但是想从中获取出只是自己的想要的部分有一定的难度。看过一些python大神的 *** 作后,小编也只能在心里默默地羡慕。不过为了让正在学习python的小伙伴能快速的入手爬虫,小编还是找了一个简单的python代码让大家练练手,方便以后更深层次的学习。
确定了目标后,第二步就可以开始写爬虫了,如果你像我一样,之前没有任何编程基础,那我下面说的思路,可能会有用。
刚开始动手写爬虫,我只关注最核心的部分,也就是先成功抓到数据,其他的诸如:下载速度、存储方式、代码条理性等先不管,这样的代码简短易懂、容易上手,能够增强信心。
所以,我在写第一遍的时候,只用了5行代码,就成功抓取了全部所需的信息,当时的感觉就是很爽,觉得爬虫不过如此啊,自信心爆棚。
import pandas as pd import csv for i in range(1,178): # 爬取全部页 tb = pd.read_html('http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%s' % (str(i)))[3] tb.to_csv(r'1.csv', mode='a', encoding='utf_8_sig', header=1, index=0)
3000+ 上市公司的信息,安安静静地躺在 Excel 中:
以上就是一个简单的python爬虫代码的例子,相信即使是刚入门的小白可以看得懂。下次有想要获取某一方面的数据时,就可以使用这种方法啦~还没成功的小伙伴也不要气馁,多试几次就好啦。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)