专栏首页AI科技大本营的专栏刚刚,96年美女拿下了刘强东的猪脸识别冠军,30万奖金到手!

刚刚,96年美女拿下了刘强东的猪脸识别冠军,30万奖金到手!

记者 | 鸽子

刚刚,JDD—2017京东金融全球数据探索者大赛决赛冠军出炉,获得算法组4组冠军分别为:

  • 登陆行为识别冠军:啦啦队
  • 店铺销量预测冠军: 小麻猫
  • 信贷需求预测冠军:小虎队
  • 猪脸识别冠军:百变猪猪侠

商业组的冠亚季军为:

  • 冠军 进击的巨猪
  • 亚军 翔创科技
  • 季军 熵商科技

其中,商业组的冠军进击的巨猪,里面的美女竟是个96小姑娘。真是集美貌与智慧于一身~~

据京东金融副总裁、技术研发部总经理曹鹏透露,此次JDD大赛算法组的四个冠军团队,将分别获得30万元奖金;而商业组的冠亚季军、以及最具网络人气奖,也将分别获得将近30万元、20万元、10万元、5万元的奖金。

同时,针对算法组,所有的冠军团队都会收到京东金融的Offer。

此外,商业组的冠军选手如果想要创业,有机会直接获得投资,投资来自京东金融与合作伙伴设立的千亿投资基金。

据悉,大赛共有全球范围内的4624支团队报名,其中算法组报名有3783支队伍,商业组有841支队伍。团队的背景分别来自哥伦比亚大学、卡耐基梅隆大学,有的来自清华大学、北京大学,中科院计算所,微软、IBM、腾讯等,也有来自蓝翔技校。

其中进入决赛的共有36组选手,算法组有20组团队,商业组16组团队。

36支团队在京东总部进行48小时的封闭线下决赛,最后决出算法组四个赛题冠军。但商业组还有现场答辩环节。

据官方透露,此次进入总决赛也有来自新加坡、中国香港、中国台湾的选手,平均年龄25周岁。(牛逼哄哄的小鲜肉们,可怜的营长已奔四...)

在此次比赛中,营长第一时间采访到获得冠军的百变猪猪侠,来看看他们到底牛在哪里?

猪脸识别冠军选手:百变猪猪侠

在JDD大赛算法组“猪脸识别”赛题决赛参赛团队中,“百变猪猪侠”的成员均来自某世界顶尖IT公司的亚洲研究院,同时他们也是来自中山大学和中国科技大学的在读学生。

对于参加这次比赛,他们表示,这完全是被一篇标题党的微信文章还有“猪脸识别”这个新奇有趣的赛题所吸引的原因。当时团队中的一位博士生小伙伴,在看到了一篇微信文章《冠军奖30万!刘强东搞了个“猪脸识别”比赛,中美两地同时启动(附比赛详细日程及赛题说明)》(哎呀呀,这不就是营长之前所写的文章嘛,还不点击阅读),从事视觉识别领域研究的他一下就来了兴趣,当看到JDD大赛的30万元奖金金额和包括国际人工智能联合会理事会主席杨强等在内的强大的导师团队后,就拉来了同在研究院实习的另外两位小伙伴组成了团队参赛。

谈及最终参赛理由,因为三个人本身就是从事视觉识别领域研究的,之前做过不少相关的学术探索,同时目前人脸识别技术已经相对成熟,而猪脸识别技术其实比人脸识别更具难度,因为猪无法像人一样配合的去面对镜头,因此需要识别的可能不仅仅是面部还有身体的全部和局部特征,对团队而言也是一个新的挑战,同时他们觉得,如果猪脸识别技术能够成熟化,那之后将这个技术平移到牛脸、马脸上也会很容易,因此具有很广阔的技术前景,是一个很有价值的探索。

对于参赛过程,团队表示,目前利用AI技术实现视觉识别的原理基本都是一致的,即利用计算机神经网络的深度学习,学到每一头猪的特征,然后利用深度学习的模型 ,针对测试数据集,得到每一头猪的概率,最后来判别哪头猪是哪头猪。他们的主要工作就是编写模型代码,然后让模型跑测试集数据得出成绩,虽然跑模型已经是比较套路化的工作内容,但由于参赛队伍的水平都很高竞争,因此也很激烈,有时候睡一觉醒来,就会发现其他参赛对手的模型运算结果就已经领先了自己很多,所以在整个参赛过程中,不断的根据模型运算结果,去调整模型的参数,调整多个模型融合为一个模型之间各部分的比重,成为决定胜负的关键因素。而本次大赛中各个团队成绩的实时榜单,也成为了促成各个团队间互相竞争、一决高下的比擂台,“百变猪猪侠”团队觉得非常好。

对于参加比赛收获“百变猪猪侠”团队表示,这次最大的收获在于,这次比赛做出的成果,完全出乎了团队之前的预料,拿到数据集的时候,连团队成员自己都很难分辨哪头猪是哪头,当他们用模型跑完数据之后,发现最后的效果比模型跑人脸识别达到的效果还要好,这次比赛验证了一个事情,就是视觉识别技术不仅仅能识别人脸,也能识别其他动物的脸。这让团队成员也不由得期待大赛前期传播中所描绘的技术前景,猪脸识别技术很可能在不远的未来真的能帮农户老张解决很多问题。另一个很大的收获在于,本次比赛让他们经历了一个在限定时间内解决问题的挑战,让自己获得了代码编程,模型运用等能力上的增长,例如参赛前他们不知道几个模型间孰优孰劣,但是通过这次比赛,我们就会有经验直接选择最好的那个模型直接使用,这是在以前的学术研究中很难收获的成长。

同时京东金融提供的数据集,也让“百变猪猪侠”团队眼前一亮,AI学术研究工作相比其他科学研究不同,对数据,尤其是大量级、多维度、优质、真实的数据依赖程度高,没有这些数据就没法实验与改进模型,而这次京东金融JDD大赛为参赛选手提供的数据,不论是维度的丰富上,还是量级的数量大上,都是同类比赛中少有的。同时本次大赛数据集的一大特点便是真实,以前他们参加的比赛中,数据集很多都是“清洗过的”即清晰、标准、易于识别的图像素材,但真实应用场景下所获取的素材往往没有那么理想化,而京东金融JDD大赛所提供的数据集,则更加真实,这不仅仅对于他们从事学术研究的团队而言,对于任何一个AI开发团队,都是极其宝贵与难得的。

“百变猪猪侠”团队表示,为了参加JDD大赛,他们在公司的时候,总是在电脑上露出猪的照片,不知情的同事路过时看到,往往会表示十分诧异,向他们投来异样的眼光。由于团队中的三个成员都是专注于技术研究的,对技术在商业上认知还比较幼稚,其实也是十分期待决赛现场商业界大佬的想法和观点的,希望了解到商业大佬的想法和自己的想法有什么不同,例如他们现在能想的就是在农场里面装一个摄像头,让农户知道哪头猪是哪头猪,至于商业应用上的前景与价值,他们希望能听听商业大佬怎么说。

导师采访

据悉,本次大赛,根据赛题的四个方向,总共有四位导师:

  • 猪脸识别导师:国际人工智能联合会理事会主席、香港科技大学计算机科学与工程学系主任杨强
  • 店铺销量预测导师:红杉资本中国基金专家合伙人车品觉
  • 登陆行为识别导师:TalkingData首席执行官崔晓波
  • 信贷需求预测导师:微软亚洲研究院城市计算领域负责人,美国计算机学会杰出科学家郑宇

针对此次大赛一些重要信息,AI科技大本营第一时间采访到导师,希望其中的信息对你有所帮助。

AI科技大本营:对这次JDD大赛有什么比较深的感受可以分享一下?

崔晓波:总体来看,京东金融这次的比赛最重要的是开放了很大程度的高质量数据,这是吸引选手的最重要原因。

数据和算法之间的关联,一个是血液,一个是心脏。

AI科技大本营如果是学生,参加JDD这样的活动,具体有什么意义?

郑宇:这次算法组有很多是学生,他们平时在学校做训练,是给定一些数据和基准,用算法做出结果后,跟基准进行对比,对准确率进行排名,完全不用考虑商业化是什么样子。

但是这次比赛,真实的数据,商业化的场景,让选手来做落地,挑战完全是不一样的。

因为,对学生来说,以前只是在课本上做的算法程序,现在用到真实的数据,他们会发现跟以往完全不一样,真实的场景里面会碰到各种问题。

有的学生觉得我的学习成绩好,会喝多算法,其实真的不是这样的,到了场景里面碰到各种现实的问题,才是对学生最大的磨砺和帮助。

我觉得未来,在对AI人才的教育中,也不应该只是在学校里关起门来培养。要到真实的场景去做真实的数据推演,这样培养出来的人才才会有真正对社会有用。

车品觉:其实对企业来说,赢得一个重要的比赛,我们会对他评价很高。

在今天的行业里面,最好的培训就是参加比赛,不断在比赛里面优化自己的想法算法,必须去比赛里面发现最现实的情况。

AI科技大本营杨强教授,您一直专注在迁移学习方面,您觉得在金融行业有没有比较好的特殊的案例?包括互联网银行。

杨强:举个例子金融行业最熟悉的就是贷款,贷款的话有不同的受众,比如说小微贷的话就是大规模的受众,甚至更多上千万,这种的相对容易一些。但是有一种像VIP客户,有大额的贷款,在银行是低频的现象,对于这种客户建模,你像深度学习或者很多学习的方法都需要大数据支持。

现在有一个方面就是通过迁移学习,利用大数据的小额贷款迁移到小数据的大额贷款,我们也做了一些尝试,比方说给上次公司做了一些尝试,就取得了提高。

但是还有一个更有意思的案例,金融行业的案例往往都是一次性提高的,这个数据往往由于监管各方面的原因,怎么样对这个数据建模,有一个办法就是通过迁移,比如你在另外一个场景建好了模型,你把这个模型给迁移到私密场景去,让它在本地做自适应,这个我们现在在做一种新的尝试发现它可以同时解决效率的问题,效果提高提升的问题,同时更重要的是隐私的问题。

AI科技大本营通过本次大赛,能看出,选手需要加强的地方有哪些?商业化的项目到底需要什么样的人才?

郑宇:一个是既懂科学又懂场景结合的应用型人才,一个场景做完能应用到另外一个场景的人才,这类人才还比较少。

还有一个普遍的感觉是,选手们很年轻很有激情很有想法活力,但在表达方面,还需要更加精简。实际上,讲得越多,别人越记不住。

杨强:我非常同意。在跟人沟通方面,以及聚焦的能力方面,学生队特别容易聚焦10个方向,20个问题,而商业队就比较容易聚焦到一个方向,这个能力还是需要实践获得的。我们说起人工智能和大数据现在可能最关键的话题是落地,但如何落地跟聚焦的能力是相关的。

车品觉:实际上,任何一个产品,必须明白谁买单,服务谁。你需要把所有的功能收到一个点,收到刚好有人愿意付钱。

崔晓波:第一个是产业发展的问题,我觉得首先还是数据流动的问题,因为前几年我们都说是不是可以通过交易和交换的方法让整个的数据流动起来,现在我觉得从商业时间来看是比较失败的,拥有真正高质量数据的企业是不愿意开放出来的,比如说交易数据,从来没见他们交易数据,第二个其实政府的数据资源没有被开发出来,这个和美国有差距,那边的数据整理得非常好,质量也非常高。

此外因为各地也在建数据交易所,但是没有实际的商业基础,原因是什么呢?

因为数据是不能被用来交易的,所以在美国已经过渡到了大家觉得数据不能被交易,但是算法和模型是可以做商业化的,现在基本上是在一个过程中。

说到人才方面,因为我们公司也有很多专门这个领域的人员,我们也是给他们划分了几个职业赛道,就像杨强老师说的数据师,所以我看到,第一个会越来越细分,以前我们说把产品经理统称为产品经理,但是现在来看我们的商业实践里面已经出现了专门的数据产品经理,就是专门不把数据转化成产品,并且转化到专业的场景应用的人,他要非常的懂商业,又知道哪些场景可以用数据,建立模型,去评估,用在哪些商业场景可以落地,这样的人是非常少的。

第二个,中国的工程非常差,以前做软件的有软件工程,但现在做数据工程和数据治理这部分缺东西也缺方法,这个是整体一部分。去年也聊过这个问题,因为效率不高,90%的数据不能应用于商业运用的模型,因为80%是做数据加工,但是这在我们商业里面是最有价值的一部分,把数据加工成一个可以去做模型做工程这样的数据,这部分我觉得会有很大的一个空白去填补。

AI科技大本营:您如何来辨别大数据公司的数据是真实有效的,因为数据的真实性验证是比较痛苦的,谁也不能评判一个数据的好与坏或者优与劣,或者真与假。

崔晓波:就像车老师说的有一些基础的验证的方法,包括我们说的基础的样本匹配,以及选取部分的样品判断,这在我们公司就是质量控制部分,进我们公司所有的数据会要经过质量检验,我会拿三个事情去考验,你这批数据首先会有质量的指标。

第二个从商业的指标来看,因为我必须在一个商业场景里面会先做一个测量,要测量你这个数据模型在这个商业场景里面到底是给商业的CPI、LOY提升了多少,我们要特别清晰的商业指标。就拿预测的举例子,在双十一的时候就帮助一个客户做了销量预测的模型,因为去年销量预测不准,直接损失了大概3个多亿,通过这样的模型我们今年大概做了3个月,用了各种各样的数据特征,所以数据模型对商业是有价值的。

杨强:这个是大家现在还在探讨的问题,这种监管这种条例刚出来,大家也看到了各种的猜测,我个人的解读是这样的,一个是国家要求金融机构具有更强的科技能力,然后最好这个能力是自己具有的,这样就保证了金融机构能不断的创新。

第二个是金融机构的金融能力不能第三方去做,所以一定要更多的自己去做,也不排除金融服务,在国外已经有很长的历史了,像京东金融是具有特别的独特的优势就是它自己还具有数据,有高频的数据,而且这种数据和网络商业场景紧密相关的,这种结合我觉得是一个开放性的考虑,所以我们现在大家的解读都不一样,但是我觉得怎么样在安全的前提下能够做金融创新,这对国家、对广大的金融用户,都是好事。

科普一下大赛的背景资料

据悉,本次大赛在中美两地同步进行,共有四大赛题,包括登录行为识别、店铺销量预测、信贷需求预测和猪脸识别,每道赛题均设有算法组和商业组。

值得一提的是猪脸识别,其在知乎上的浏览量超过35万。

在这道题中,通过猪脸识别,帮助养猪户识别每一头猪的身份,从而分别记录不同的猪在养殖过程中的各种活动,判断这头猪是不是活跃,它是不是散养的,它是否生过病。从而在食品安全、养殖管理,甚至是为养殖户提供信贷、保险等金融服务。

有意思的是的一个小插曲是,为了提供最真实、最全面的猪的照片,京东金融20多个AI工程师在养猪场呆了2天,分三组为105头猪采集照片,仅一头猪的照片就需要拍完三张卡的数量。

而登录行为识别这道赛题,主要要求选手通过竞赛模拟数据中用户的登录行为信息,来预测交易是否有风险,从而构建针对登录行为识别的、有业务可解释性的模型,对账户的登录行为进行评判。

据京东金融副总裁、技术研发部总经理曹鹏称,在这道赛题中,算法组的团队表现,已经很接近京东金融目前正在使用的同类模型的技术水平。

附JDD—2017京东金融全球数据探索者大赛决赛算法组4组冠军以及商业组的冠亚季军:

本文分享自微信公众号 - AI科技大本营(rgznai100),作者:鸽子

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-12-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何入门Python与机器学习

    本文引自电子工业出版社《Python与机器学习实战》 本书算法与代码兼顾,理论与实践结合。很丰富:7种算法,50段实现,55个实例,总代码量5295行,全面而...

    AI科技大本营
  • ACL 2019 | 精选8篇微软ACL论文解读,一览最新研究进展

    近两年,自然语言中的预训练模型如ELMo、GPT和BERT给自然语言处理带来了巨大的进步,成为研究热点中的热点。这些模型首先需要在大量未标注的文本上训练一个从左...

    AI科技大本营
  • 直击AAAI 2020,一文读完微软亚研6篇精选论文

    编者按:AAAI 2020中微软亚洲研究院有29篇论文入选,本文为大家介绍的6篇精选论文涵盖多维数据普适分析、文本风格迁移、句子改写、集成学习、实体链接任务等多...

    AI科技大本营
  • 【典型案例】利用AI技术快速识别物体种类之火眼金睛目标检测

    目标检测任务在计算机视觉和数字图像处理领域扮演着重要角色,在各行各业也已得到广泛应用,如航空航天、机器人、智能监控等重大行业。精准地从图片中识别出目标所在位置,...

    腾讯智能钛AI开发者
  • 像人一样编辑源代码,谷歌大脑提出神经网络也可以学「编程」

    总体而言,这份研究在于理解人类编写代码的过程(例如 GitHub 的 commit),并使用深度神经网络模拟这个动态的编辑过程。只需要给定上一次的编辑信息,模型...

    机器之心
  • 一个闪回区报警的数据恢复(r11笔记第62天)

    今天在火车上接到一个电话说,数据库有个报警,让我看看是怎么回事。 看着报警信息一直重复出现,看来是有些问题了。 这是一个统计库,出现了DG相关的...

    jeanron100
  • 机器翻译不可不知的Seq2Seq模型

    Seq2Seq,全称Sequence to Sequence。它是一种通用的编码器——解码器框架,可用于机器翻译、文本摘要、会话建模、图...

    机器学习算法工程师
  • aseml3r 和 asreml4r 关于外部逆矩阵的调用比较

    基因组选择中,无论是GBLUP还是HBLUP,asreml都是一个很好的工具,功能强大,速度快,支持多性状模型。asremlw和asremlr都不能构建G逆矩阵...

    邓飞
  • 胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做

      基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和更大的实施难度。本文针...

    数据饕餮
  • 胖子哥的大数据之路(三)- 数据仓库的需求分析该怎么做

      基于大数据技术构建数据仓库平台,源于大数据技术本身的不成熟和普及度问题,以及辅助工具的缺失,注定了其实施过程与传统数据仓库的差异性,和更大的实施难度。本文针...

    数据饕餮

扫码关注云+社区

领取腾讯云代金券