记录一下自己的爬虫的过程把,最近在做个项目。
要爬取的网站比较简单。
其中的问题是:
post方式,网站的数据有一些需要使用post方式才能获得。
比如,
这部分要看到《发起的项目》,需要鼠标点击,刚开始以为是AJAX,其实不算,是Js的方式获取的。
因此,仔细研究发现,其实网址是这样的。
https://s*****view.php?id=GKUdgjKayCQvY
具体部分省略,看这个网址,其实没什么,但是通过浏览器检查,可以发现,鼠标点击《发起的项目》,会有一个Js动作。
如果只有一页,
像这样
那么不会发现Js动作。但是如果很多也,需要点击,就会发现,需要Js了。
这个动作,是包含post的。
具体的参数如下
因此,其实请求的网址,可以用这样组成。
https://sd.zhiyuanyun.com/app/api/view.php?m=get_opps&type=2&id=89608371&p=3
所以,这里面就是ID,p是页面。其他都是默认参数。
然后在利用post方式,构造出来这个请求就可以了。
def get_proj_number(ID): print("((((((((( >>>>>>>> 现在开始 获取 组织 一共开展了 多少个项目 ") params = (('m', 'get_opps'), ('type', '2'), ('ID', ID), ('p', "1"), ) response = requests.get( 'https://sd.zhiyuanyun.com/app/API/vIEw.PHP', headers=headers, params=params) selector = Selector(response)
这样,把p参数弄成一个for循环就可以了。
保存列表数据最后请求下来的数据网页是一个列表
那么怎么保存这个列表。
@H_502_87@
列表包含 th 和td
那么 我直接把td 做成列表,然后zip一下。
我就弄了一个简单点的。做一个zip(List)
总结以上是内存溢出为你收集整理的python爬虫,记录一下爬取过程,列表数据,翻页,post方式,保存字典全部内容,希望文章能够帮你解决python爬虫,记录一下爬取过程,列表数据,翻页,post方式,保存字典所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)