数据科学竞赛-Kaggle-时间安排-报名-真题

竞赛介绍

Kaggle是一个全球知名的数据科学竞赛在线平台。由Anthony Goldbloom和Ben Hamner创立于2010年,是一个进行数据发掘和预测竞赛的在线平台,也是全球最大的数据科学社区和数据科学竞赛平台,2017年被Google收购。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。

Kaggle以数据挖掘起家,为了快速高效的解决最棘手的问题,该平台发布了众多数据科学、机器学习相关的竞赛。Kaggle的多数竞赛由企业或者研究机构发布,以竞赛奖励的方式向全球征集解决方案,通过众包的方式解决建模问题,诸如Google、Facebook、Microsoft等知名科技公司均在Kaggle上举办过数据挖掘比赛。除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。

竞赛含金量

助力名校申请

一段带奖金高难度的Kaggle比赛的 Prize Winner经历并不会比一段互联网大厂数据分析实习经历逊色,Kaggle项目可以直观地展现你的数据分析能力。Kaggle作为数据科学行业极富盛名的平台,在业界具有极高的认可度。在找相关工作时,一段Kaggle Prize Winner经历将大大提高你的录取概率。

学界认可度

得益于Kaggle的海量数据集和开放性,它还成为了一个非常棒的教学实践平台,吸引到哥大、纽大、上交大等设立了相关领域的Capstone Project,以及哈佛、牛津、斯坦福等开设Kaggle-in-Class的课程项目。

此外,众多国际大型和重要学术组织、机构,如IEEE、NASA、CERN等都在Kaggle上举办或多次支持(公开数据集)了不同类型的竞赛,帮助他们自己或合作方解决棘手的科研问题。

业界含金量高

许多科技巨头在Kaggle举办Recruitment类的竞赛用于招聘数据科学家,比如 Facebook、Amazon、Walmart。

Featured类的比赛为解决商业问题而设立,是Kaggle平台最主要的竞赛类型,奖金高竞争激烈,有金银铜牌奖励,对参赛选手的能力有一定的要求,同时这意味着如果可以取得较好的成绩排名,对于相关领域的申请、求职能起到很强的背书。

竞赛流程

适合人群:

对数据科学、数据挖掘、机器学习感兴趣的高中生

有一定计算机背景的大学生

竞赛类型:

其难度从初学到高阶以及求职均有涉及,最常见的竞赛可以划分为以下类型:

Featured

Research

Getting Started

Playground

InClass

Analytics

竞赛流程:

01注册账号(一人只能有一个账号)

02选择想要参赛的项目

03下载题目的数据

04时间截止,评出最优者

05获奖的队伍必须提交源代码

注:可以以个人或组队的形式参加比赛,在参赛时可以相互分享经验。

参赛时间:

全年滚动,随时可以报名

竞赛要求:

1.编程语言

最基础的入门学者也需要学会初步使用一门编程语言。对于毫无基础的新手,推荐使用Python,因为Python作为一种强大的胶水语言,可迅速入门。

2.探索数据

光有编程语言是不够的,还需要学习如何探索性分析你手上的数据,这是进入数据科学的第一步。因为通常到手的数据都多到不可思议,你要学会取舍和迅速获取最有用的信息。

3.模型训练

熟悉使用机器学习库,培养良好的习惯,为之后的工作做铺垫实战,从初级可以逐渐增加难度。

Kaggle优势:

Kaggle交流社区的活跃度非常高,许多优秀选手会在社区里开源代码、分享心得,一起成长

Kaggle会根据每场比赛的排名,受到许多企业认可

比赛全英文,可以练习英语


也可以扫码领取报名表哦!

赛题示例:

Allstate索赔预测挑战 - 使用客户的购物历史记录来预测他们购买的保险单

有害评论分类挑战 - 预测维基百科上有害评论的存在和类型

Zillow奖 - 构建一个机器学习算法,可以挑战Zesow,Zillow房地产价格估算算法

谷歌地标检索挑战 - 如果有图像,您能在数据集中找到所有相同的地标吗?

右鲸识别 - 识别航空照片中濒临灭绝的露脊鲸

大规模分层文本分类 - 将维基百科文档分类为约300,000个类别之一

泰坦尼克号:从灾难中进行机器学习,预测泰坦尼克号的生存几率

房价预测:回归方法

猫与狗:创建一种算法去区分猫与狗

纽约出租车行程持续时间:通过数据改善乘车时间预测

商店销售预测

新用户预定预测

比赛形式 :

Classic:在比赛开始后,用户可以访问完整的数据集。并可以选择在本地或在线进行建模、预测生成预测文件,最后提交预测结果。目前大多数比赛采取本形式。

Two-stage:分为第一阶段和第二阶段,第二阶段建立在第一阶段的结果上,第一阶段完成才可参加第二阶段。

Kernels:参赛者必须在线提交代码,更加公平,使每个参赛者都使用相同配置的电脑。

竞赛奖项设置

kaggle的评价体系 kaggle的用户评价体系是基于三个维度的:竞赛、代码以及社区参与。根据这三个维度把kaggle的用户分成了5个等级:

Novice :初始等级,只要注册就算

Contributor :添加资料信息,并且进行了各种指定的动作即可。如上两个等级没有考虑到用户的比赛成绩和社区声望。

Expert :获得两枚竞赛铜牌;5枚代码铜牌;以及50枚讨论铜牌

Master :获得一枚竞赛金牌,两枚竞赛银牌;10枚代码银牌;50枚讨论银牌以及总共200枚讨论奖牌

Grandmaster :获得5枚竞赛金牌,solo竞赛金牌;15枚代码金牌;50枚讨论金牌以及总共500枚讨论奖牌。

竞赛历年真题

2017年真题 2018年真题 2019年真题 2020年真题 2021年真题

真题已经更新至最新年份,扫码免费领取吧!

竞赛常见问题

1、参赛者背景如何?

从比赛目标出发,参赛者主要分为2种:

① 一种是以奖金和排名为目的,包括靠奖金为生的职业Kaggler;

② 另外一种就是以提升相关skills和背景为目的业余爱好者甚至在校学生了。从背景来看,前者的来源主要有丰富data science、data mining、machine learning工作经验的业内人士,或者是实力强劲的民间“技术宅”;而后者则往往是一些有一定技术能力,但经验欠缺,从中进行学习和锻炼的“长江后浪”。


2、在比赛中获胜或者拿到好的排名难吗?

在Kaggle比赛中,赢得一个奖项甚至赢得一个好位置的难度非常高,通常有数千人参与一个项目,只有Top1才能获得奖金,可以说是高手中的高手。

一般来说,几个人在行业内有一定水平在临时组团的情况下最多能拿到20个左右的排名成绩,排名还想要往前走就需要有一定的默契和合作经验。

新闻资讯