Python抓取海量面经，直面秋招_python

概述又到了金九时分，要收获一个满意的offer，免不了花心思好好准备。而参考别人的面经，可以让我们在备战秋招时提供不小的帮助。所谓知己知彼，百战不殆，知晓面试流程使得在面试时更有信心应对面试官，了解目标公司的题型来做相应的训练，能够有效地拔高自己的“瞬时技术水平”。牛客网-

又到了金九时分，要收获一个满意的offer，免不了花心思好好准备。而参考别人的面经，可以让我们在备战秋招时提供不小的帮助。所谓知己知彼，百战不殆，知晓面试流程使得在面试时更有信心应对面试官，了解目标公司的题型来做相应的训练，能够有效地拔高自己的“瞬时技术水平”。

牛客网-互联网求职神器自然就成为了我们的目标，里面有各大公司的面经，一共收录了670家公司。中国科技企业巨头阿里、华为、腾讯、字节跳动等都有大量的面经。

今天我们就来抓取一下这些公司的面经。在上图的页面中我们可以获取每个公司对应的href链接。利用简单的XPath即可得到各个企业的链接，企业的名字以及该企业的面经数量。

我们先进入阿里巴巴的面经页面，并进行翻页观察url链接变化。

https://www.Nowcoder.com/discuss/tag/134?type=2&order=0&pageSize=30&expTag=0&query=&page=2

发现截至type=2便是之前获得的href链接。而后面的链接参数可以根据其英文来理解。显然，控制翻页的参数应该是page，其他参数应该不是必要的。正所谓实践是检验真理的唯一标准，我们使用获取的href链接只加上page参数尝试一下，果真如此。

企业的面经数量可以作为page值的一个参考，因为每30条面经会翻页，page增加1。

    def get_enterprise(self):                r=requests.get(self.origin_url,headers=self.headers)        tree=etree.HTML(r.text)        enterprise=tree.xpath('//div[@data-nav="企业"]/ul[@]/li/a/@data-href')        enterprise_name=tree.xpath('//div[@data-nav="企业"]/ul[@]/li/a/span[@]/text()')        num=tree.xpath('//div[@data-nav="企业"]/ul[@]/li/span[@]/text()')        enterprise=[i[13:-7] for i in enterprise]        num=[int(i[:-1]) for i in num]                return enterprise,enterprise_name,num

接下来要做的事便是获取每一份面经的内容，并保存在本地。根据当前网页的源代码，我们还是利用简洁高效的XPath便可以得到面经的标题和其链接。

这里我想使用面经标题作为文件名，由于文件名的符号要求，我们需要将原有标题中的图片魔术

花式照片墙

总结

以上是内存溢出为你收集整理的Python抓取海量面经，直面秋招全部内容，希望文章能够帮你解决Python抓取海量面经，直面秋招所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1185754.html