首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

BDIC大数据技能赛:“多看优秀的比赛开源代码,掌握常用的数据处理方法”

全文共3415字,预计阅读时长6分钟

9月15日—16日,2018首届全国高校大数据应用创新大赛全国总决赛在上海复旦大学举行。自3月启动比赛以来,经过初赛、复赛和决赛,为期半年的比赛终于圆满落下帷幕。

此次比赛中产生了诸多优秀的获奖者。他们中间有大二的萌新女同学,也有学术成果满满的研究僧。那么,为什么是他们得到了评委的青睐?他们为何会选择通过竞赛来完善自己?对想要参加竞赛的同学们来说,他们的经历又有哪些借鉴意义?

本期,芯君为你推荐“联创杯”大数据技术技能赛的特等奖和一等奖获得者的故事。

特等奖

北京大学 YouOnlyLookOnce

这支队伍的队员均来自数据科学专业。成员张文涛告诉芯君,之所以参加此次大赛,就是为了熟悉自身所学,培养对数据的嗅觉。

这次技能赛中的数据,主要有以下几个特点:1.规则特别强;2.类别不均衡问题严重;3.数据背后的应用场景易于理解;4.训练集的数据量比较小。

针对该数据的特点,队员们在不均衡数据分类以及ensemble这两部分做了大量的工作,并且采用了一些自己原创性的算法。“最大的困难主要是训练数据的数量小且不均衡问题严重。”

对于想要在大数据竞赛方面取得一定成绩的同学,他们提了几条建议:

1.入门可以多看kaggle上相关的kernel。

2.积累自己的代码库,很多比赛的代码都可以复用,提高比赛效率。

3.多看优秀的比赛开源代码,掌握常用的数据处理方法。比如如何处理时间类型数据带缺失值的数据和类别不均衡数据等。

一等奖

江西农业大学 KDD

照片最中间为吴兵龙

这支队伍之所以特殊,是因为只有一名队员。

来自软件学院三年级的吴兵龙,正是这位“独行侠”。不过,他并非一个人在战斗。

“我的指导老师钱文彬博士在此次比赛中给与我诸多的指导。在比赛过程中除了和导师讨论外,我们KDD工作室的学长学姐也给与了我一些帮助。”

“我第一次了解到人工智能相关领域,是AlphaGo和李世石的比赛,那时候人工智能便在我的心里生根发芽。而后再到AlphaGo与柯洁的比赛,让我更加喜欢上了人工智能。于是我在指导老师钱博士引领下,开始钻研周志华教授编写的《机器学习》。在学习过程中,我渐渐看到了AlphaGo的影子,虽然此时我的知识层次与技术还差很远,但努力钻研也让我从一个一无所知的小白,开始步入到人工智能这条时代之路上。那么参加此次比赛,便是对我这一年来和导师共同钻研所累积的技术、知识一次良好的‘单元检验’。”

从提交项目作品到本次大赛的总决赛,吴兵龙说,这次比赛的亮点、最难忘的和最大的困难都和集成学习策略有关,因为每一次调整策略都需要修改原来的逻辑结构和代码。“当然,最终能调出一个比较好的模型,此时所获得的成就感也是不可言表的。”

从分赛区的决赛到全国总决赛,吴兵龙以及他的团队进行了非常认真细致准备,进行多轮讨论和研究,不断优化项目作品。提到比赛感想,他表示最想说的是:参加比赛要提前多准备,多和指导老师讨论,精炼项目的创新点。同时,要多锻炼身体,因为身体是革命的本钱。

一等奖

河北经贸大学 凌云0队

凌云0队的阮正清、张雷杰、李子坤今年都是大三在读。由于对大数据的浓厚兴趣,他们组成了兴趣小组,一直在学习相关的知识,互相分享共同进步。为了以赛促练,在比赛中更好地学习,在指导老师翟英和李卫东老师的推荐下,他们参与了BDIC。

在此次比赛中,他们使用了基于python的tensorflow框架构建神经网络模型,对数据进行分类。借鉴图像识别解决策略,将52张扑克牌构成一个牌阵,任意一条数据的5张扑克牌都可以映射到其中。

谈到项目中的亮点,他们表示,为了解决数据分布不均匀的问题,对一些训练数据中类别数据比较少的数据进行了保护。借鉴迁移学习的知识,使模型更加稳定可靠。

“一开始我们考虑的是传统的机器学习方法,但是发现准确率不太高,因此后来就考虑使用神经网络进行尝试。在后来正确率无法继续提升的情况下,我们将特征工程加入了进来,顺利地在初赛截止之前将正确率提高到了100%。在决赛时,我们发现训练集数据量进一步减小,原有的网络不能很好地识别。正好我那时候去北京参加了一个深度学习的交流会,一些大牛们说到的方法让我受到启发,回来之后我们就尝试着使用这种方法并且得到了很好的效果。”阮正清说。

到了比赛的中后期,他们遇到了瓶颈时,甚至一度开始质疑tensorflow是否适合这次的赛题。团队成员互相鼓励,不断查阅资料,学习好的解题思路,并不断进行了尝试,最终获得了想要的结果。“这个过程是最让我们难忘的,也算是我们的一次成长。”

提到最大的困难,他们表示:“还是知识储备量不够,由于缺乏对Machine Learning和Deep Learing知识体系较为全面的了解,好多东西都得现学。另外,虽然有些知识可以熟练应用,但是深层的原理方面还有些欠缺。”

说起对有参赛意愿同学的建议,他们提到:

首先要找一些志同道合的小伙伴,一起参加这次的大数据比赛真的是一段美好的记忆,尤其是水平这么高的竞赛,团队的力量真的是无穷的。

其次,熟悉业务场景是很重要的,一定要多试一些模型算法,不要局限于一种,多学习多讨论,集思广益,会发现一些一个人想不到的idea,往往这会成为关键点。

最后,养成良好的习惯,可以让人少犯一些低级错误。一定要持之以恒,不留遗憾。

一等奖:

陕西科技大学 陕科大AI

陕科大AI由三名成员组成:计算机科学与技术专业大三的张文天、大四的赵智健,和机械电子专业大四的刘浩哲。

张文天表示,他们三个人均在大数据领域中从事模式识别、机器学习的学习与工作一年左右,在图像处理、特征分析等方面拥有一定的理论基础和项目经验,所以希望通过本次比赛检验知识的牢固程度以及通过接触更多数据集积累自身数据处理经验。最重要的是可以通过比赛结识一群志同道合的同学,认识更多优秀的指导老师和优秀的团队。

自从参与比赛以来,团队始终以鲁棒性作为检验算法的主要标准,一个没有鲁棒性的算法,尽管准确率可以达到很高,但在具体应用场景中表现一定不会很好。基于此种观点,团队在不断尝试数据处理并构思了一种独特的处理方式之后,尝试使用传统机器学习、深度学习中的多种具体算法,提取数据特征、保证网络的鲁棒性,并确定以残差网络为核心,进行深度学习网络的优化改进和调参,在决赛中的准确度达到了99.81410%。

“我认为团队对于本次比赛数据集的认识是最为深刻的,也对最终网络预测的准确度感到满意。在比赛过程中,在老师指导下,与两位学长共同交流,将实际的数据样本进行维度扩充和通过GAN对抗网络实现数据量的扩充是另我最难忘的。”张文天说。

他还对参赛项目进行了简要的介绍:

数据处理:团队首先将一维数据扩充到三维,并使用GAN对抗生成网络对现有数据进行单样本数据的扩充,实现6000数据扩充到80万的效果。

网络模型:团队使用ResNet34层残差网络结合Inception v3中卷积核缩小方法,实现对样本数据的特征提取与样本分类。

代码实现:团队基于Tensorflow工具,实现网络的多并行算法,将网络训练的收敛速度提高至原来的三倍甚至更多。

“希望之后参加比赛的同学,从样本数据的本质出发,重视算法模型的鲁棒性,选取一种最适合样本数据的处理方式和实现算法。”

郑州轻工业学院计算机与通信工程学院系主任吴怀广在点评大数据技术技能赛时表示,本次大赛有27支队伍参加比赛,参赛队伍所在的高校层次多,覆盖面广,参赛队伍的组成人员既有研究生也有本科生,较好地体现了在学生层面上全国现阶段数据科学与大数据教学和研究的现状。

对于大数据技术技能组,评委根据算法的创新性,时间复杂性,代码的可读性和可维护性四个方面,对每支参赛队伍进行了考评,各参赛队伍针对本次大赛的题目进行了很好的问题分析,利用大数据技术对问题进行了解答,给出了完整有效的解答思路和解答过程。

从参赛队伍的解题思路和方法来看,多数队伍使用了决策树、逻辑回归、神经网络等等,充分考虑了时间的复杂性、代码的可读性和可维护性,较好地完成了大赛规定的任务。

但是,在这次评审过程中,也发现了几个小的问题:

1、大家对于参赛题目——大数据和人工智能的需求了解得还不够。一些同学发现大赛提供的题目规律性特别强,于是直接使用了简单的方法对数据进行了分类,识别率很高,甚至可以达到100%。不过,在“大数据和人工智能”问题的场景下,虽然简单的方法也可以达到要求,但还是应该考虑应用大数据的分析方法和策略,而不仅仅是结果导向,只是为了解决问题。

2、在评审和现场答辩的过程中,有的队伍的同学在回答问题的时候,对于概念和定义还有欠缺。

3、答辩的过程中,评审的老师严格按照评审的要求来进行审查,但部分同学们未能很好地做到要求,并未充分利用答辩时间对自己的项目进行很好地说明。

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181003G0O49I00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券