怎么在git上获取kaggle比赛中的共享代码

怎么在git上获取kaggle比赛中的共享代码,第1张

可以以个人或者组队的形式参加比赛。组队人数一般没有限制,但需要在 Merger Deadline 前完成组队。为了能参与到比赛中,需要在 Entry Deadline 前进行至少一次有效提交。最简单地,可以直接提交官方提供的 Sample Submission。关于组队,建议先单独个人进行数据探索和模型构建,以个人身份进行比赛,在比赛后期(譬如离比赛结束还有 2~3 周)再进行组队,以充分发挥组队的效果(类似于模型集成,模型差异性越大,越有可能有助于效果的提升,超越单模型的效果)。当然也可以一开始就组好队,方便分工协作,讨论问题和碰撞火花。
Kaggle 对比赛的公正性相当重视。在比赛中,每个人只允许使用一个账号进行提交。在比赛结束后 1~2 周内,Kaggle 会对使用多账号提交的 Cheater 进行剔除(一般会对 Top 100 的队伍进行 Cheater Detection)。在被剔除者的 Kaggle 个人页面上,该比赛的成绩也会被删除,相当于该选手从没参加过这个比赛。此外,队伍之间也不能私自分享代码或者数据,除非在论坛上面公开发布。

最近几年人工智能越来越火,无人驾驶、智能音箱等行业正在爆发,优秀的人工智能工程师越来越供不应求,一些从事人工智能行业的优秀毕业生起薪就是几十万,这让很多同龄人羡慕不已,行业现状真的是这样吗?如果想从事人工智能行业技术工作的话,有哪些技术社区可以去学习、交流相关技术?

   去年11月8日,IDG曾发过一份《2017中国准独角兽公司薪酬调研报告》。在这份报告中曾对人工智能领域的薪资待遇有过一个统计数据,发现人工智能平均薪酬溢价高达55%-110%。

   而且当时IDG预测人工智能行业的人才竞争,将会在2018年达到白热化的程度。甚至我还看到网上流传着一份2018年的校招高薪清单,人工智能行业的公司给毕业生开出了25万年薪的待遇,并且还说这只是“白菜价”,可见企业对AI人才的渴求。

  对于人工智能领域的从业者来说,企业给到高薪只是一方面的吸引力,其实他们更看重的是自己的研究成果能够在具体的场景中应用,

对产业、工业的发展起到推动作用。如果无缘进入企业,一个高质量的交流学习平台也是不错的选择。在这些平台社区上,大家可以参加比赛、开源项目,甚至可以有机会把技术共享给企业,让大数据、AI产业和实体经济相结合,给大家的生活带来改变,从而实现自己的人生价值。既然题目问起了有关大数据和人工智能领域的交流社区,那我就拿几个有意思的平台和大家聊一聊:

 

    第一个是最近由京东集团与京东金融联合打造的,国内距离产业界最近的数字探索者社区 JDD空间站:之所以吸引我是因为它的定位,即国内距离产业界最近的社区。JDD空间站内汇集了金融科技、供应链金融、智能城市这些有京东特色的赛题,大家可以在空间站内进行数据和AI竞赛、项目开源、数据共享等活动。与此同时,“JDD空间站”还会提供JDD官方认证的影响力榜单。对于榜单中排名靠前的探索者,例如赛事获奖者、优质内容或数据贡献者,京东集团和京东金融可以帮助其与学术界资源进行桥接。比如将优秀论文推荐到KDD(数据挖掘研究领域年会)、IJCAI(国际人工智能联合会议)等国际学术会议;当然,也可以参与每年的JDD大会,获得更多的个人和团队曝光机会,并与行业大咖零距离接触。此外,为了打造国内距离产业界最近的数字探索者社区,在“JDD空间站”的赛事中获取优异成绩的数字探索者,将有机会跟投资方、企业沟通对接,打开更大的发展空间。

   第二个,我想推荐国外的一个技术交流社区Kaggle,这个平台成立于2010年,主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。这个平台就厉害了,目前它已经被谷歌收购。该平台上的题是有奖金可拿的,当然也并不是那么轻易就能拿到的,因为它上面的题很多都是业界难题,且更倾向于应用性机器学习,在数据科学方面更有分量。许多Kaggle的参与者,甚至从未赢得过一场竞赛,也没有拿到过奖励,但这边并不影响人们对于这个平台的钟情,因为在竞赛的过程中程序员本身也能获得非常好的个人提升,每个竞赛都有自己的讨论板块与获胜者简报,而且Kaggle论坛里的高手解答也是非常专业的,是一个不错的技术社区。

   第三个,我想推荐的是面霸集中营LeetCode相信做人工智能的程序员在面试前都刷过LeetCode,不,是相信普通程序员也有大量的人在刷LeetCode。Leetcode上的目前有800多道题,分为简单、中级和难三个档次。我个人刷了100多题,同样的语言不击败80-90%的对手不过瘾,当然了,其实根据刷的规则,很有可能我还是实际上的最后一名。非常带劲。题目大致分为两类:基础算法和编程题。前者可以培养你对最基础的算法思路的了解和训练;后者则是系统的对你的编程进行考验,稍有考虑不周之处就会有几个Case让你焦头烂额。总之LeetCode对于算法方面的考验和提升,还是非常有用的。也适合项目经验较少的程序员去多刷刷题,对于面试拿offer非常有用。

成为一名数据分析师的关键在于: 结合实际业务,建立一套解决问题框架的能力,工具只是完成目的的手段而已。

所以,我把数据分析师的学习路径归纳为:

鉴于不同行业,不同公司对数据分析师的要求不同。大家可以根据自身情况来判断到底该学啥:

金融行业:SAS/SQL

中大厂:R/Python、SQL、A/B test

小型互联网公司:SQL

以中大厂为例,成为数据分析师需要掌握以下几点:

这里用一道大厂真题举例,主要考察 DELETE语句中的子查询 的用法

现需要删除课程表中所有教师年龄小于 21 岁(不包括 21 岁)的课程,请你使用相关的 SQL 语句实现。

首先我们需要在教师表 teachers 中查询到教师年龄小于 21 岁的老师的教师 id ,再根据其教师 id 在课程表 course 中查询该教师 id 所创建的课程并将课程删除。

因此,这里我们首先需要通过嵌套子查询到的信息为符合条件的教师 id,而整个语句是为了删除数据。

使用 SQL 中子查询的方式如下:

执行输出结果:

在删除成功后,我们再对 courses 表进行查询,查看插入结果:

掌握了这类题型后,可以来做下这道练习题

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/12781319.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-28
下一篇 2023-05-28

发表评论

登录后才能评论

评论列表(0条)

保存