机器学习数据集:Kaggle

这篇具有很好参考价值的文章主要介绍了机器学习数据集:Kaggle。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

什么是Kaggle?

Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。

除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。从某种角度来讲,大家可以把它理解为一个众包平台,类似国内的猪八戒。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。

这里有一篇对Kaggle首席科学家Jeremy Howard的采访,介绍了Kaggle的创建初衷及运营模式,即任用最聪明的人解决世界上最棘手的问题;同时,任何公司和组织都可以受益于机器学习的发展进步。

Kaggle的竞赛模式是什么样的?

Kaggle上的竞赛有各种分类,例如奖金极高竞争激烈的的 “Featured”,相对平民化的 “Research”等等。但他们整体的项目模式是一样的,就是通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比

同时,每个进行中的竞赛项目都会显示剩余时间、参与的队伍数量以及奖金金额,并且还会实时更新选手排位。在截止日期之前,所有队伍都可以自由加入竞赛,或者对已经提交的方案进行完善,因此排名也会不断变动,不到最后一刻谁都不知道花落谁家。

由于这类问题并没有标准答案,只有无限逼近最优解,所以这样的模式可以激励参与者提出更好的方案,甚至推动整个行业的发展。

Kaggle竞赛另一个有趣的地方在于每个人都有自己的Profile,上面会显示所有自己参与过的项目、活跃度、实时排位、历史最佳排位等,不仅看上去非常有成就感,更能在求职和申请的时候起到Certificate的作用。

Kaggle参赛者的背景大多是什么样的?

从比赛目标出发,参赛者主要分为两种,一种是以奖金和排名为目的,包括靠奖金为生的职业Kaggler;另外一种就是以提升相关skills和背景为目的业余爱好者甚至在校学生了。

从背景来看,前者的来源主要有丰富data science、data mining、machine learning工作经验的业内人士,或者是实力强劲的民间“技术宅”;而后者则往往是一些有一定技术能力,但经验欠缺,从中进行学习和锻炼的“长江后浪”。

0基础的人如何上手Kaggle?

理论上来讲,Kaggle欢迎任何数据科学的爱好者,不过实际上,要想真的参与其中,还是有一定门槛的。一般来讲,参赛者最好具有统计、计算机或数学相关背景,有一定的coding技能,对机器学习和深度学习有基本的了解。Kaggle任务虽然不限制编程语言,但绝大多数队伍会选用Python和R,所以你应该至少熟悉其中一种。

当然,如果你从未独立做过一个项目,还是要从练习赛开始熟悉。因为竞赛模式中的任务是公司悬赏发布的实际案例,并没有标准的答案;而练习赛不仅项目难度低,而且是有官方给出的参考方案的,大家可以用来对比改善自己的测试结果,从中进行提高。

所以呢,建议感兴趣的同学先去独立做一下101和playground的训练赛,至于做多少个案例才能上道,就要看个人素质啦。这里为大家推荐几篇非常好的文章,里面手把手的教了大家入门级的三个经典练习项目,供大家学习。

1. Titanic(泰坦尼克之灾)
中文教程: 逻辑回归应用之Kaggle泰坦尼克之灾
英文教程:An Interactive Data Science Tutorial

2. House Prices: Advanced Regression Techniques(房价预测)
中文教程:Kaggle竞赛 — 2017年房价预测
英文教程:How to get to TOP 25% with Simple Model using sklearn

3. Digital Recognition(数字识别)
中文教程:大数据竞赛平台—Kaggle 入门
英文教程:Interactive Intro to Dimensionality Reduction

Kaggle竞赛获奖及取得名次难么?

Kaggle竞赛取得奖金乃至取得好的名次的难度都是非常高的,通常一个项目的参与人数都能达到数千人,而其中只有Top 1可以得到奖金,可以说是高手中的高手。通常来说,几个具有一定水平的业内人士在临时组队的情况下最多也就拿到20名左右的成绩,想要再往前冲往往都需要有一定程度的默契和合作经验了。

所以,对于以学习与实践为目的的小白选手来说,不要太在意排名,从参赛的过程中不断地提升自己才是最终的目的。当经过一次又一次的洗礼最终取得一个不错的成绩后,相信你也已经成长为可以在相关领域独当一面的人才了。

Kaggle竞赛的认可度高么?

Kaggle作为Data Science业内享有盛名的平台,在业界拥有极高的认可度。所以如果你是想寻找相关行业的工作,那一个漂亮的Kaggle profile将为你的简历增色不少

Quora上的这个问题:How can we use Kaggle? (点击查看)就提到,把Kaggle的项目经验写在Linkedin上可以很直观的展现自己作为一个Data Scientist的能力。

国内亦有一些高级人才对Kaggle有很高的认知度,比如Edward.Fu - 知乎 一直在知乎各个和Kaggle相关的问题下留言寻觅Kaggle比赛经验丰富的人,表示常年有这方面的需求,说明国内对Kaggle的项目经验也是非常认可的。@Lau Phunter在Kaggle 的比赛在 Machine Learning 领域中属于什么地位? 回答下面所说的:

写上参加过Kaggle比赛,我会看简历。
得过一次10%,我会给电话面试。
得过2次或者以上10%,我会给on site面试。
得过一次前10,我们会谈笑风生。

参加Kaggle是一种怎样的体验?

在调研的过程中我采访了几个Kaggler,将他们的亲身经验做了一下总结:

Kaggler A,NYC Data Science Academy team leader/ 美国数据电子交易公司CEO,多次参加Kaggle比赛:

参加此项目,你不可或缺的品质就是持续的热情和坚韧不拔的毅力,即使是像我这样的老司机,和另外两个专攻CS和统计方向的小伙伴组队,一个难度中等的项目做下来也要投入两周,每天工作10h以上。更别提那些有着强迫症,一遍遍修改方案,直至deadline的完美主义大牛了。我相信没有一支夺冠队伍是在提交方案后完全没改过的,顶尖高手的成功不仅是基于他们的专业素养,还有其背后我们看不到的勤奋。

Kaggler B,某知名大数据公司的数据分析师,在美国读统计研究生期间曾通过Kaggle项目提升自己数据操作技能:

我是统计本科申请一年半的统计Master,目前刚刚回国工作。在出国前对Kaggle也是闻所未闻,来到美国以后,在导师的引导下知道了Kaggle这个巨大的学习源,经常在上面学习。在我看来,Kaggle的背书还是非常有用的,排位前几十的都是大神级别,他们从来不需要找工作,都是工作来找他们。而对我们这样的小白,如果没有整块时间找实习或者没有找到合适的实习机会,利用闲暇时间做一些Kaggle项目,写在简历上也能算做一些项目经验,更容易得到面试;同时,在做项目的过程中,实实在在的Skills的提高也能让我们在求职时笔试的表现更好,获得更好的工作机会。

Kaggle的竞争非常激烈,很多时候Kaggle的排名即便是前50位流动性也很大,从前几名跌至几十名不过一两天的事,可想而知想要保住排位要在此付出多大的时间和精力,一次次的推翻自己,碾压别人。

  • 从求职者的角度来看

Kaggle提供了一个非常好的学习平台,在这里你可以接触到真正的业界案例,收获实际的项目经验,在每一个项目中不断挑战自己,甚至在Kaggle榜上占据一席之位,提高自己在业内的知名度,优秀的排位甚至可能带来的非常好的工作机会。同时,也可以认识一群志同道合的人,扩展自己的professional network,与业内最顶尖的高手互动,尤其是很多队伍在比赛结束后都会公开自己的解法,如果这个项目恰好你参与过,为之投入过无数个日日夜夜,此时就是不可多得的学习机会。

对于刚刚进入这个行业的菜鸟而言,参加Kaggle的项目是非常“长见识”的,可能初期的尝试会非常吃力,毕竟都是非常前沿的问题,但是如果能坚持完整的把一个项目做下来,且不说coding能力会有一个很大的提高,在实际案例中解决问题的能力也会得到极大的锻炼,为自己的职业生涯打下一个良好的基础。如果能在Kaggle这种高手云集的比赛中获得一个还不错的成绩,写在简历上足以打动你今后的Boss,跳槽就翻倍的高薪工作指日可待!值得一提的是,虽然是汇集精英的社区,Kaggle的论坛氛围很好,对新人非常友好,大家一定要多看Script多请教!

给大家汇总了一些超级良心的手把手教程,

 在专栏中发表的文章—Kaggle 入门指南, 详细介绍了Kaggle项目的大致流程,包括Data Exploration, Statistical Test, Data Processing, Feature Engineering, Model Selection, Ensemble Generation每一步该怎么做,有哪些Tips,最后还给出了一个“Home Depot Search Relevance”的案例,拿到它就可以开始自己的Kaggle排位赛了!祝愿大家都能够成为一个优秀的Data Scientist!
接下来是我整理的一些相关的学习资源,大家各取所需。

  • 基础准备篇之Python

怎么用最短时间高效而踏实地学习 Python?

你是如何自学 Python 的?

在线教育网站(Coursera网易云edx课堂腾讯课堂等)有哪些值得推荐的 Python 教程?

  • 基础准备篇之R

业余时间如何学数据分析? 如何高效地学好 R? 好看的数据可视化的图片是怎么样做的?

  • 基础准备篇之Machine Learning

机器学习该怎么入门? 深度学习如何入门? JustFollowUs/Machine-Learning

  • 基础准备篇之Kaggle Experience

从Python菜鸟到Python Kaggler的过程:

Python机器学习实践与Kaggle实战

经常更新的的大数据博客

TO最爱学习的你:国外大数据博客资源大全 | 36大数据

How to start doing Kaggle competitions?

What do top Kaggle competitors focus on?

A Journey Into Data Science文章来源地址https://www.toymoban.com/news/detail-717867.html

到了这里,关于机器学习数据集:Kaggle的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 数据分析的未来:机器学习和人工智能的革命

    数据分析是现代科学和工业的核心技术,它涉及到大量的数据收集、存储、处理和分析。随着数据的增长和复杂性,传统的数据分析方法已经不能满足需求。机器学习和人工智能技术正在革命化数据分析领域,为我们提供了更高效、准确和智能的解决方案。 在本文中,我们将

    2024年02月20日
    浏览(143)
  • Python到机器学习再到深度学习:一条完整的人工智能学习之路

    简短介绍Python在数据科学和机器学习领域的重要性。 概述本文的目标:提供一个清晰的学习路径,帮助初学者从Python基础学起,逐步过渡到机器学习和深度学习。 学习资源 :推荐一些学习Python的好书籍和在线课程。 书籍 :《Python Crash Course》Eric Matthes,适合初学者。 在线课

    2024年02月03日
    浏览(82)
  • 【人工智能与机器学习】决策树ID3及其python实现

    决策树(Decision Tree)是一类常见的机器学习方法,是一种非常常用的分类方法,它是一种监督学习。常见的决策树算法有ID3,C4.5、C5.0和CART(classification and regression tree),CART的分类效果一般要优于其他决策树。 决策树是基于树状结构来进行决策的,一般地,一棵决策树包含

    2024年02月08日
    浏览(90)
  • 数据预处理与模型评估【机器学习、人工智能、实际事例】

    在机器学习领域,数据预处理和模型评估是两个至关重要的步骤。它们确保我们构建的机器学习模型能够从数据中有效地学习并做出准确的预测。本文将详细介绍数据预处理和模型评估的概念,并通过现实中的例子来阐述它们之间的密切关系。 什么是数据预处理? 数据预处

    2024年02月07日
    浏览(62)
  • 毕业设计选题:基于机器学习的虚假新闻识别系统 人工智能 python

      目录  前言 设计思路 一、课题背景与意义 二、算法理论原理 2.1 机器学习 2.2 深度学习  三、检测的实现 3.1 数据集 3.3 实验及结果分析 最后        📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精

    2024年01月19日
    浏览(74)
  • 数据分析师在人工智能与机器学习领域的重要作用

    人工智能(Artificial Intelligence, AI)和机器学习(Machine Learning, ML)是当今最热门的技术领域之一,它们正在驱动我们进入第四次工业革命。这些技术正在改变我们的生活方式、工作方式和社会结构。数据分析师在这个领域的作用非常重要,因为他们是在这个领域中的核心组成部分。

    2024年02月19日
    浏览(44)
  • 数据一致性在人工智能与机器学习中的应用

    数据一致性是指在分布式系统中,当多个节点或进程访问和修改共享数据时,确保所有节点或进程看到的数据都是一致的状态。在人工智能(AI)和机器学习(ML)领域,数据一致性是一个重要且复杂的问题。随着数据规模的增加,分布式计算变得越来越普遍,这使得数据一致性问

    2024年02月21日
    浏览(52)
  • 数据产品化的人工智能与机器学习:如何融合到数据产品中

    人工智能(Artificial Intelligence, AI)和机器学习(Machine Learning, ML)是当今最热门的技术领域之一,它们在各个行业中发挥着越来越重要的作用。然而,在实际应用中,将人工智能和机器学习技术融入到数据产品中仍然面临着许多挑战。这篇文章将探讨如何将人工智能和机器学习技术

    2024年02月19日
    浏览(48)
  • 人工智能+物联网:从传感器到机器学习:智能化的数据采集和分析

    作者:禅与计算机程序设计艺术 大数据时代是一个数据爆炸的时代。如何从海量数据中快速找到隐藏在其中价值的信息,成为当今企业竞争中不可或缺的能力?人工智能和物联网正在成为经济领域和产业界的主流,新一代互联网物联网平台、AI智能终端、海量数据和算法驱动

    2024年02月09日
    浏览(69)
  • 【Python】人工智能-机器学习——不调库手撕演化算法解决函数最小值问题

    现在有一个函数 3 − s i n 2 ( j x 1 ) − s i n 2 ( j x 2 ) 3-sin^2(jx_1)-sin^2(jx_2) 3 − s i n 2 ( j x 1 ​ ) − s i n 2 ( j x 2 ​ ) ,有两个变量 x 1 x_1 x 1 ​ 和 x 2 x_2 x 2 ​ ,它们的定义域为 x 1 , x 2 ∈ [ 0 , 6 ] x_1,x_2in[0,6] x 1 ​ , x 2 ​ ∈ [ 0 , 6 ] ,并且 j = 2 j=2 j = 2 ,对于此例,所致对于 j =

    2024年01月20日
    浏览(69)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包