如何拿到Kaggle科研项目全球前4%?Z同学和Evan老师跟我们聊了聊

点击“Embark有方博雅”,即刻订阅

想要学习AI,做科研是一个好办法。

Z同学从零基础开始学习AI,参与了Kaggle的「Bike Sharing」探究项目,在这个项目中,共同参与竞争的有将近4000人,而他的项目结果目前在所有竞争者中排名前16%。更值得令人惊叹的是,作为一个高中生,他在「House Prices:Advance Regression Techniques」项目中的排名是前4%。

而Evan,作为卡内基梅隆大学工程学云计算方向的硕士,在Z同学的科研指导上也功不可没。

这周,我们约到了Evan老师和Z同学,一起聊了聊关于Z同学在参与Kaggle科研项目中遇到的困难和收获。

(下用E代表Evan,Z代表Z同学)

谈谈课题和成果

Q:谢谢Evan老师和Z同学今天过来接受我们的采访。首先请Z同学简单介绍一下你做的科研课题以及科研成果?

Z:我做的课题呢是一个关于共享单车的流量预测。在此之前我还做了一个练习的课题,是关于房价预测的。

这两个课题都是由Evan老师指导的,学到了很多。在课题研究过程中,我的算法经过了好几次改动,最后取得了较为不错的成绩。

Q:我们知道的是,在房价预测这个课题上,你在Kaggle上的排名是全球前4%;在共享单车这个课题上是全球前16%,恭喜你!拿到这样一个成绩,有什么感想吗?

Z:我现在还属于一个初学者状态,因为我对这方面也比较感兴趣,希望后面有更多自己探究的部分,不停进步。

E:其实这些课题,你是跟全球所有成人、初学者一起参与的,甚至可能成人中还会有专门研究这些内容的专业人士。能做到这个成绩已经是很不错的了。如果要追求最漂亮的成绩,大概就是全球前三名了。

Z:我会朝着这个目标努力的。

Q:这几个课题都是关于机器学习的,对于能获得这样一个成绩,Evan能具体讲一讲吗?

E:那从我的视角来说一说吧。其实过去我们做一个算法,一开始是非常初级的,模型十分简单,可能连数据处理都是错误的,得到一个差的结果。而我们首先保证的就是正确的数据,在数据处理这一部分做了非常多的调试,然后再尝试更多更复杂的模型,让我们能够从全球50%提升到10%-20%左右的水平。

在房价预测这个课题上,Z同学在数据处理上有很多自己的想法,使用的模型也很独特,可以说是有一个独特的策略。因此在竞争者中脱类拔粹,提升到了4%。共享单车这个课题比较复杂,能够获得的数量量很小,16%这个排名已经很高了。

Q:很多导师说在指导学生的时候会遇到overfitting这样一种情况,并且认为这是科研教学过程中核心的一部分,那么你们遇到这种情况是怎么解决的呢?

(Overfitting:一个模型在训练数据上表现很好很小,但是在训练数据外的数据集上却变现很差。)

Z:碰到这种情况的时候,老师教了train split跟random shuffle,用来解决overfitting的情况。

E:其实刚才Z同学提到的名词是用来克服overfitting这种情况的。我们的方法就是,将数据集随机分割为多个同比例的training group和testing group,分别做训练。比如说第一份做训练,剩下的做测试,这样得出的参数对最后的结果会有更好的帮助。

但是有的overfitting是我们可以处理的,还有一种overfitting我们没法处理。就是将这个模型用到现实生活中,这就是真的一个困难点。

因为我们数据的收集时间是2013、2014年,而16年的数据已经不一样了。这也是现实生活中机器学习遇到的一个更大的问题:在时间、空间的改变下,如何把机器学习的训练结果应用到现实生活中。这种时候就需要一个反复迭代的过程,把新数据替换掉老数据,然后更新模型,这才能起到作用。

Z:对,我也很希望能够把这些模型应用到现实生活中,但是还是有很长一段路要走。

E:是的,因为首先要解决的就是「如何获取数据」这个问题。也许你可以通过自己创立企业,然后获取数据(笑),或者自己写个APP来获取用户上传的数据。

谈谈科研和态度

Q:Z同学,你觉得在科研过程中,老师给你帮助最大的是哪方面?

Z:一开始其实我连机器学习是什么都不知道,包括机器学习的基础概念都是老师教我的。在后续处理数据的时候,需要各种算法和函数去调整,这也是老师在一直帮助我。通过这些课题,老师让我了解到了整个科研流程,指导我如何更好地优化模型。

Q:在机器学习整个科研流程中,你觉得自己在哪方面的进步和收获是最大的?

Z:首先肯定是开拓了我自身的眼界,了解了机器学习。另外一点大概就是:学会像机器一样思考。

因为我们人类的思维模式跟机器的思维模式是不一样的。机器是一行一行代码执行的,我们怎么去写代码,机器就会怎么做。所以我们在思考的时候要站在机器的角度去思考,这样会更直观了解到错误。

E:所以他这是把算法和编程的收获都揉到一起讲了。

Q:我们当时了解到Z同学是希望未来申请计算机方向的专业,那么对于那些同样对计算机方向感兴趣的同学,你有什么建议吗?会建议他跟你一样做机器学习方面的科研课题吗?

Z:我觉得这还是要看他个人的兴趣吧,兴趣会推动他去做。做科研课题并不单单是对个人能力的提升,因为个人兴趣而完成课题时获得的成就感也是不一样的。

Q:对,成就感也是科研过程中一个优秀的反馈,能够推动你继续探索下一步。那么Evan老师觉得高中生做科研课题的话,除了Z同学说的兴趣,还应该有哪些准备?

E:最重要的应该就是心态调整。这些科研课题并不像一些学校里被动的填鸭式教学,我们提供的是框架,学生会从0到1开始学习,在开始到结果这个过程中,有很多是需要学生自己来学习的。

Z同学在科研过程中心态调整就非常好,很「美式」,很主动地去解决他面临的问题。老师能够给予的就是一些建议和指导,并不是完全帮助学生解决问题。兴趣是很重要,但是心态也是。

如何从「被动」地学习到「主动」地学习,这就要靠学生自己去调整。

基础倒并不是最重要的。你花了时间去学习,基础总是会不断提升的。

Q:那总结一下就是,人工智能的科研听起来十分高大上,其实调整好心态,愿意去花时间,和一般的科研是一样的。只要你愿意去花时间,一样能做出成果,获得一个好的反馈。

Z:是这样的。不过也得益于网络,有很多看不懂的算法可以在网上找到很多资料。

E:对,编程能力是可以通过实操提升的,而心态是需要自己去调整的。心态调整好了,有导师的指导,学生自己又愿意去花时间,是没有什么事做不成的。

一些学习上的建议

Q:Z同学,假设有学弟学妹了解了你的科研经历,也想去参加科研项目,你有什么好的建议可以提供给他们吗?

Z:自己一定要花时间去学习。导师的指导跟自己学习的时间是缺一不可的。每次老师上完课以后我都会认真完成作业,老师上课时间跟自己课后学习的时间最低是1:1吧,但是如果碰到困难,学习时间可能会是上课时间的两倍以上。

Q:在你遇到问题的时候,一般是借助哪些工具来解决问题的呢?

Z:在遇到问题的时候我会先自己想一下方案,如果方案无法解决,会先去网上找一些参考资料。如果参考资料仍然不能解决,我才会去问老师。

E:这点就很好,独立解决问题是很优秀的学习能力。是的,因为如果在美国读大学,最好的工具应该就是google,尤其是在编程方向,网络的资源是非常丰富的。

Q:那么Evan老师能不能介绍一下,你遇到问题是如何去解决的?

E:我们一般会在网上搜集资料,看大量的文档,看其他同行写的一些code,其中很重要的一个工具就是github。

Q:采访的最后想问一下Z同学对于我们有方教育的一个反馈,希望你给我们提一些建议。

Z:我觉得都挺好的,视频课看了以后如果有问题,一般反馈都很及时。

Q:谢谢两位今天能够接受我们的采访,我相信今天的对话能够给正在做科研的同学很大的帮助。也祝两位越来越好

正如Evan老师跟Z同学说的,在科研的道路上,兴趣很重要,摆正自己的心态也很重要。而基础,只要你付出时间,就能逐渐提高。

所以,无论你是否有基础,只要你愿意付出并且为之努力,你也可以像Z同学一样,得到优秀的科研成果,为自己申请美国高校做准备。

在2018年1月28日北京时间10:30,Evan老师将会在线上举行一个讲座,更为详细地讲述AI科研如何助力学生申请美国顶尖高校,赶紧扫一扫海报二维码,来参加吧!

2018

01

16

AI未来星 免费学习AI的课程来了,大家都在学,你还不加入吗?

入门人工智能,培养编程意识,就从这个寒假开始!

2018

01

15

讲座 AI+X和名校申请有什么关系?吴博士讲座重点回顾!

吴博士和Leo同学分享了很多干货,错过讲座就看推文吧!

2018

01

02

AI未来星 是高中生又怎么样?做起项目来也毫不逊色成年人啊!

Z同学用他优秀的成绩表明,高中生也是可以做科研,与领域内顶尖人士共同竞争的!

2017

12

25

对话丘奖得主 Leo:如果对某学科特别感兴趣的话,最好的方式就是去搞科研

Leo同学给我们分享了他做科研以后的几点收获。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180125G0S3X800?refer=cp_1026

扫码关注云+社区