未来中国版Kaggle锋芒初显 :CCF大数据与计算智能大赛完美收官

【新智元导读】2016年12月25日,“2016CCF大数据与计算智能大赛”(BDCI)正式落幕。多位大数据与计算智能领域顶尖强者,用作品赢得了行业专家的一致认可,也体现了大数据发展的蓬勃活力。

2016年12月25日,第四届“大数据与计算智能大赛(Big Data & Computing Intelligence Contest, BDCI)”在青岛完美收官,各奖项、奖金也名花有主,获奖队伍在圣诞节的衬托下更添喜悦。从大赛启动到决赛嘉年华,整整历时九十天,虽然比儒勒·凡尔纳笔下的福格环游地球还多花了十天,但参赛的一万余名“夜猫子”环游比特世界的征程是比走遍山川美景更为独特的智力冒险。

决赛队伍答辩现场

大赛规格猛升,队伍构成更加多元

与上届相比,今年的大赛规模实现了爆发式增长,参与人数、队伍数、境外高校数以及提交作品数均比上年增长3.3倍以上,创下历史新高。“我们又回来了-美林数据”等多个战队的选手之前都参与过多次大数据赛事,且取得了非常好的成绩,为本次大赛增添了几缕“星光”。

从地域、校园、性别等的分布都可以发现参赛队伍多元化特征非常明显。地域上不仅覆盖全国34个省、自治区和直辖市,更吸引了港澳及美国、英国、法国、日本、澳大利亚的海外参赛者。学生来源几乎覆盖了国内所有985/211高校以及众多普通高校、地方院校,甚至包括数个中学。工业界选手也有增多的趋势。性别上,来自两名北京大学“女汉子”组成的“Foo & Bar”队,取得了CCF最佳技术创新奖及对应赛题的一等奖,并且其他获奖参赛队伍骨干中也经常能看到女生的身影。

队名显现活力与趣味。参赛队伍的名称可谓“八仙过海,各显萌通”,比如“打酱油`拎壶冲”、“401数据挖掘施工队”、“SmartRookie”等等,让台下观众都有评一个“最有创意队名奖”的冲动了,当然,名字让人印象深刻的“诗人都藏在水底”还凭借独特的算法商业性,获得了CCF最佳商业潜力奖及对应赛题一等奖。

揭开数据面纱,深度挖掘特征

CCF决赛专家评审组 最终成绩复核现场

在数据挖掘领域有这么一句话广泛流传:“数据和特征工程(Feature Engineering)决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。所谓特征工程,就是最大限度地从原始数据中提取特征以供算法和模型使用。这类似斯坦福大学教授保罗·瓦茨拉维克在《改变》一书中提出的“第一序改变”与“第二序改变”的关系。比如开车的时候,不管你踩多大的油门都是“第一序改变”,只能无限接近档位限定的速度,只有换档才是“第二序改变”。

因此,基于领域知识,针对数据本身的深度分析是大赛致胜的关键。各参赛队伍在数据清洗、压缩以及特征提取方面下足了功夫,如分对象抽取的用户、商户、优惠券、Label窗等特征,以及分层次抽取的全局特征、局部特征、元特征等。以“fgo非洲人”战队为例,其通过对“Human or Robot?”赛题的1.5亿条数据进行特征分析,将数据量压缩至500万条,只有原来的三十分之一,极大提升了后续模型训练的时间,取得了“第二序改变”的优势,最终获得CCF最佳算法能力奖,及相应赛题一等奖。

用模型的暖阳唤醒黑暗中沉睡的数据

“Fgo 非洲人”队在做决赛答辩

各战队在特征工程的基础上,也创新了多个算法模型。除了熟练运用XGBoost、随机森林(RandomFore)、卷积神经网络(CNN)、循环神经网络(RNN)等常用数据挖掘模型,参赛队伍还对已有模型进行了优化和创新,如针对小目标检测的R-FCN算法、多任务学习框架的精细化人体属性识别算法。另有战队提出的多通道多窗口CNNs模型,只需54秒即可完成2w数据量的训练。“401数据挖掘施工队”结合地理数据的经验,针对“基于多源数据的青藏高原湖泊面积预测”赛题,引入了数量平衡方程、彭曼蒸发公式等领域模型,利用时空关系构建的湖泊预测模型,实现了很好的效果。

网络、移动终端无处不在的今天,大量未被利用的数据在黑暗中沉睡,这些虽略显稚嫩的模型创新,无疑像一缕暖阳,昭示着唤醒的努力。

夜猫子间的战争

会务组统计时发现一个非常有趣的数据,在近三万份结果中,有超过六分之一的是在22:00-6:00点提交的,足见各参赛选手在学业和工作之余显示出的“拼命三郞”精神,把自己生生逼成了“夜猫子”。

“睡一觉起来榜单就可能产生翻天覆地的变化”,有参赛选手这样感叹比赛的激烈程度。很多人提到,比赛期间的心情起伏非常大,每天都有新想法,尝试后却发现没有效果提升,竞争对手还纷纷赶上,尤其是复赛时,甚至会为实现0.001分的提升焦灼不已。

在这种你追我赶的过程中,很多队伍的指导老师尽职尽责,甘当幕后英雄。比如大连理工大学林鸿飞教授指导的两支队伍都取得了各自赛题的一等奖,让人艳羡之余也更添一份敬佩。

场景落地与开源开放,实现智力侵略

中科院院士梅宏、青岛市副市长张德平为CCF综合特等奖获奖团队“S-LAB”颁奖

九十天的智力冒险最终在两天的决赛嘉年华中完美收官,120万元奖金找到归属。青岛市对决赛的举办给予资金和场地方面的大力支持,青岛市副市长张德平、李沧区委书记王希静、李沧区区长李兴伟等均亲临现场为获奖队伍颁奖。最大赢家是“S-LAB”团队,获得了CCF综合特等奖,在决赛中大放异彩。万国云商的50万元特别奖则授予了石油大数据智能处理平台Chase。共有54支队伍获得了企业单项奖。组委会还另外设置了CCF最佳算法能力奖、CCF最佳技术创新奖、CCF最佳商业潜力奖、优秀指导老师奖和特别贡献奖。

中国工程院院士倪光南 致辞

国网信通、寰景信息等出题企业都对比赛取得的成果赞誉有加,表示将持续支持成绩优异的战队。中国联通研究院甚至准备与参赛队伍签约,以进一步优化结果,应用于真实的业务场景。此外,“Aaron_Hunter”等战队还率先在Github开源了其提出的MUSCLE-LEADER算法,用更开放的心态拥抱未来。倪光南院士在总结发言中也击节叹赏大赛展现的竞技风貌和取得的丰硕成果。

所谓科学,就是你到了任意一个国家、面对任意一种制度,都能很好地生存的能力。而智力侵略,则是你到了任意一个星球、任意一个组织都能够很好地发展的能力。本届的参赛队伍无疑用科学严谨的态度、积极有效的行动诠释并展现了如何对比特世界进行“智力侵略”。

未来的中国版Kaggle锋芒初显

《甲方乙方》中有句经典台词:“1997年过去了,我很怀念它”。平淡温和的话语背后,饱含着时代快速变迁的感慨,以及每个人努力实现、苦甜交加、荒诞又魅惑的梦想。这是佐藤信夫修辞分类中的“默说”,意在言中,而又偏离了词典规范的零度。

中科院院士梅宏 致辞

中国科学院计算技术研究所副所长、CCF大数据专家委员会秘书长程学旗 做大赛成果展示

所以,梅宏院士在颁奖典礼最后特意改用了“2016年过去了,我很怀念它”,用含蓄的“默说”告诉我们,这届CCF大数据与计算智能大赛确实是一个转折,极大提升了赛事的规格与水准,官方竞赛平台DataFountain也日益强大,形成了平台+服务的完整闭环,未来的中国版Kaggle已经锋芒初显,梦想仍然继续迷人又富有挑战。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-12-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

哪些事情被大数据预测对了?

近日,印度初创公司 Genic.ai 开发的 MogIA 人工智能系统一时间火遍了社交媒体,也登上了各大媒体的标题栏,如果你还不知道那真的是 out 了。 怎么...

3116
来自专栏企鹅号快讯

结合机器学习与生物医学技术,寻找Uber司机出行模式

作者|Qing Feng,Peter 译者|CarolGuo 编辑|Emily AI 前线导读:机器学习在 Uber 改善应用程序的用户体验方面发挥着核心作用。...

2217
来自专栏钱塘大数据

数学建模如何诱骗了华尔街

现实世界——从种族隔离制度到金融市场——一直在警示我们:那些试图通过科技来掌握复杂人类行为的做法会使我们误入歧途。 无论是在科学领域,还是在日常生活中,我们都...

3004
来自专栏AI科技评论

大会 | CVPR 2018,AI科技评论将亲临美国盐湖城现场!

CVPR 2018 即将开幕,届时AI 科技评论将带来专题报道,欢迎大家持续关注。

1365
来自专栏量子位

Hinton:人类就是机器,绝妙的机器

原文《Mr.Robot》刊载于 Toronto Life 作者 KATRINA ONSTAD 摄影 DANIEL EHRENWORTH 编译 夏乙 唐旭 量子位...

3589
来自专栏新智元

Science大型撤稿报告:IEEE狂撤7000篇论文,中国两位超级撤稿大户曝光!

最近几年,科学领域一种令人不安的趋势愈加突显:过去10年里,学术期刊撤回的论文数量增加了10倍。在这些被撤回的稿件中,“造假”(fraud)约占60%。

861
来自专栏CDA数据分析师

想太多,何不扎实的学?【统计学经典教材书单】

一、统计学基础部分 1、《统计学》 David Freedman等著,魏宗舒,施锡铨等译 中国统计出版社 据说是统计思想讲得最好的一本书,读了部分章节,受益...

29610
来自专栏达观数据

不止你们可以吐槽高考作文,机器也可以!

在吐槽满屏的高考季,高考作文成最大槽点。如果我们放下人类的架子,从AI算法的角度来观察,会不会看到什么新奇的结果?小编向达观AI机器君投喂了近几年的高考命题和满...

3686
来自专栏量子位

年度AI跳槽指南 | CV公司哪家强?人生巅峰怎么上?(真题第二弹)

๑乛◡乛๑ 跳槽指南又来了~上一期你拿了多少fen? AI行业也不是只有BAT可去嘛!CV创业公司也相当有钱途。应用场景不断增加,融资规模不断攀升,上市计划不...

4115
来自专栏大数据文摘

集会游行的人数统计学

4816

扫码关注云+社区

领取腾讯云代金券