让人人都能使用AI

本文是作者在2018年9月25日众智汇社群分享的记录。由@L 记录整理。

作者常雷博士,偶数科技创始人兼CEO。北京大学计算机系博士,曾任EMC高级研究员、EMC/Pivotal研发部总监,长期专注于AI和大数据领域。

Apache HAWQ数据库顶级项目创始人,中国大数据产业生态联盟专家,中国人工智能百人专家,2017年入选美国著名商业杂志《快公司》“中国商业最具创意人物100”榜单。

曾在国内外顶级数据管理期刊和会议(如SIGMOD等)发表数篇论文,拥有多项国际专利。

成为AI创业者

结合关系数据库和Hadoop

我是2008年从北京大学博士毕业的,专业方向是数据库。在博士期间主要做的是数据库、数据仓库、数据挖掘和机器学习的研究工作。

毕业之后我加入了EMC。当时EMC刚开始在中国建立研发中心,而大数据(Big Data)则刚刚开始兴起。我入职后主要做大数据和机器学习相关的工作。

到了2010年左右,Hadoop已经在中美非常流行了,许多企业开始尝试用Hadoop存储、处理大量数据。

Hadoop可扩展性强,但是性能非常差;传统的数据库关系数据库读写查询速度很快,但是可扩展性比较差。所以当时我就想:这两个东西是不是可以结合起来?

为了验证想法,就做了一个原型系统,结合了关系数据库和HDFS。这个系统发布了alpha版,并在沃尔玛进行了试用,反馈非常不错。

开源HAWQ,成为Apache顶级项目

之后我们对原型进行了产品化,起名为HAWQ。HAWQ源自英文的HAWK(鹰),把K改成了Q。

2013年,HAWQ1.0发布,并在全球推广。此后的2年里,很多世界500强公司都已经开始使用。

2015年底,我们把HAWQ开源给了Apache ——大家知道Apache 是世界上最著名的开源组织,很多大数据项目,比如Hadoop,Spark都是Apache孵化的。

开源在中国的发展相对滞后,开源项目还是比较少的。在数据库领域,HAWQ是中国团队贡献的第一个Apache顶级项目。

把HAWQ作为开源给Apache,初衷是为大数据生态做贡献,希望整个生态系统会有好的发展。

除了开源,HAWQ团队在学术领域同样有所贡献,我们的研究成果在SIGMOD发表——世界范围内,在数据库这个领域有三大顶级技术会议,第一个就是SIGMOD,第二是VLDB,第三是ICDE。

走上创业的征途

在取得了这些成绩之后,2016年底,HAWQ团队从原公司独立出来,创立了偶数科技,专注人工智能和数据技术。

偶数科技在2017年先后拿到了两轮融资。2018年的2月份,又加入了微软加速器。

申请微软加速器的过程经过层层选拔,和全球1000多家公司竞争,最终我们得以入选,最终同期总共只有15个公司入选。

坊间传言进入微软加速器也是比进哈佛的难度还高。我们得以入选,也体现了偶数科技在人工智能和数据平台这一块的技术和基础。

AI系统层级

一个完整的AI解决方案,包含下列4个层次:

1. AI硬件层

目前位于这一层的企业很多,包括做CPU、GPU、FPGA,以及专用机器学习的硬件,和传感器等等硬件设备的公司。

硬件是程序运行的基础,具体到AI领域,硬件对于算法、框架的性能提升有很大帮助。

2. 数据平台层

很多人把数据平台和人工智能完全都离开。但是我认为数据平台也是整个AI解决方案的一部分。

毕竟,任何人工智能的操作都是在数据的基础上进行的。人工智能的平台也是基于数据平台之上的。

数据平台又可以分为下列几个部分:

1) 数据仓库

数据仓库负责存储查询和处理结构化数据。

无论是结构化数据、半结构化数据,还是非结构化数据,要做分析的时候,基本95%以上的数据都要转化成结构化的。

因此,数据仓库是数据平台里最重要的一个部分。

2) 流处理

数据产生的速度越来越快,许多数据处理,甚至更进一步的分析都需要实时进行,因此对于流处理的需求日益提高。

3) 图数据管理

现阶段的知识图谱技术,是图数据管理的典型。

知识图谱在许多领域,例如金融反欺诈,犯罪嫌疑人侧写,运动轨迹分析等等,都有所应用。

而知识图谱的底层,则是图数据库。

4) 数据治理

想做一个好的一个项目,数据质量和源数据管理非常重要。

开发者需要把来自多个数据源里的数据整合起来,数据的质量有所保障,才能保证上面的人工智能算法准确率会比较高。

3. 基础AI技术层

AI领域最传统的基于规则判断的控制技术,已经被证明性能很不好,准确率也有很多的问题。

目前应用中,最基础AI技术是机器学习。近年来发展迅速的深度学习是机器学习的子领域。

4. 行业应用层

虽然各个行业都可以应用AI技术,不过目前AI应用较多的主要有:金融、安防、医疗、工业、家居,以及机器人、自动驾驶等行业。

尤其是AI+金融和AI+安防,这两个行业数据量大,数据结构、类型丰富,应用也比较刚性。

比如:反洗钱这个需求。如何根据一个账户的交易行为,判断它是一个洗钱账户?在交易上,特别是洗钱交易有很多这种固定的模式,所以我们可以认为它是一个模式识别问题。

在安防领域也有类似的需求,公安接到了十个案件,里面可能有两个案件是同一伙人做的。但是如何把这两个案件找出来,归并成同一个案件?这也是一个模式识别的问题。

AI在这些领域,有非常大的贡献。

AI公司类别

目前阶段,以AI技术立命的商业企业,可以分为下列几类:

1. AI硬件公司

(1)做CPU、GPU等AI硬件的公司。代表企业比如英特尔。

(2)提供云服务的公司,比如亚马逊,阿里云,华为云等。

(3)数据技术相关的公司,比如Hadoop、Spark,以及传统的数据仓库公司Oracle等。

2. 计算机视觉公司 & 语音公司

以人脸识别、语音识别等为主营业务的公司,例如旷世、科大讯飞等等。

3. 自然语言处理公司

自然语言处理的公司有好几大类,其中有一类专门做客服,比如三角兽,微软也做了很多相关工作。

4. 机器学习平台公司

上层的应用都是基于底层技术的,机器学习是目前的主流AI技术。机器学习平台公司开发机器学习平台,为其他公司提供各种自动化的算法、模型、神经网络等。

偶数科技可以归属到此类,我们开发一款名为LittleBoy的人工智能平台。

AI对传统对行业的渗入

AI是如何渗透进传统行业的呢?我们来看看例子:

信用评分、风险控制是金融领域的刚需也是核心业务内容之一,早期这些业务是用基于规则的方法实现的。

后来开始引入机器学习模型来构建打分卡。

从2015年开始,世界上各大金融公司都开始尝试引入深度学习。

美国三大征信局:Experian、Equifax,和Transunion。前两家在2017年选择和AI创业公司合作,为无信用记录人群进行贷款风险评估。

而Transunion则在2018年新发布了基于神经网络的信用评分系统。

AI在金融领域在慢慢的渗透,用技术来做信用评分以及反欺诈已经成了当前的潮流。

Amazon(亚马逊)虽然是目前世界最大的云供应商,但同时它也是一家电商,它目前也在利用电子商务账户交易信息,来做小额信贷。

传统行业面临的AI挑战

在将AI应用到金融上这一点,国内相对还比较落后。像同盾等征信公司,基本上还是以基于规则的方式做信用评分。

大家当然是不甘落后的,都在探索怎么把人工智能用金融领域里。在探索的过程中,也遇到了很多挑战——

a) 传统行业的业务公司在试图应用AI技术的时候发现:

  • 人工智能太难。要应用AI首先需要熟悉计算机技术,还要理解清楚深度学习,会使用TensorFlow等等。
  • 应用AI需要具备数学知识。需要很扎实的统计学知识,要了解机器学习、数据科学。而这些领域的专业人才都非常难得。

b) 对于AI创业企业而言,想让AI技术真的创造价值,必须熟悉业务领域的专业知识,比如做反洗钱,就要了解反洗钱是怎么回事情,在原有业务中是怎么运作的等等。

因此需要既掌握AI技术,又掌握业务知识的人才——这样的人才非常少,也非常贵。

传统行业企业在试图应用AI技术时非常痛苦,因为它们原有的业务人员和IT人员都无法完成这个任务。

让AI人人可用

计算机刚出现的时候,是大型机,只有大企业才有经济实力承担购买和使用的费用。

但是后来经过几十年的发展,出现了小型机、PC、Laptop,慢慢手机也可以当小电脑使用了。如今,每个人都能用上计算机了。

人工智能也是一样。AI现在处于对应于计算机大型机的时代,现阶段只有大公司才有实力雇佣高端专业人才来使用它。

虽然现在如此,我们却相信AI的未来一定也像今天的计算机一样,是普通人很简单的就能学会,老百姓人人都能用起来的。

比如:某公司HR经过半小时培训,开发了一款自动筛选简历的AI工具,自动判断海量应聘的简历是否符合公司要求——这样的情形是不是我们希望出现的?

要达到如此的易用,AI技术需要解决两个问题:易用和性能。

易用是指AI工具应该简单到让普通人很容易上手。

性能则是说,要让用户有好的体验,就需要尽量达到实时性。

如果做数据分析,你肯定不希望发送一个SQL语句后,等2个小时数据库程序才给你返回吧。

早年的互联网(八九十年代)网速非常慢。打开一个网页都要等好久,当时上网是一件非常痛苦的事情。

随着网速的提升,体验也逐渐不一样了。能够立刻得到答复,这一点是交互式应用的基础。

无论人工智能还是数据分析,要具备交互性,就要先解决性能问题。

所以说我们做的这个事情基本上都是想让普通老百姓,包括数据科学家能够的有很好的体验来做人工智能。

让机器学习全生命周期“拖拽可得”的AI平台

如果有一个平台,真的可以让普通老百姓都能够应用AI技术,那它应该是什么样子的呢?按我们的构想,它应该具备以下特点:

1. 底层基于云平台。

云计算虚拟化、统一管理、随处可见的特性,使得它已经广泛应用于各类企业的IT产品和服务。我们的AI平台既然追求简单易用,自然不应该让用户遭受安装系统和各种工具的烦恼,云计算是一个天然的好训责。

2. 底层之上,有内置的数据管理系统(数据库)作为支持。

所有的机器学习、深度学习都是基于数据的,而且可能需要的训练集相当庞大。为了让非专业用户可以轻易的传输、处理数据,应当有内置的数据管理系统,而不是要求用户自己再去搭建数据库。

3. 核心层是零门槛的机器学习建模平台。

因为目标用户是普通人/小白/初学者/零基础的用户,因此,不应该将大量的参数和公式暴露给他们,而是把机器学习模型封装成黑盒,只要有输入,黑盒就能给出一个输出。

举个例子:洗钱应用的输入是所有账户的交易数据。比如今天这个账户一共有500笔转账,每笔转账了1万块钱,这是输入数据。经过黑盒子反洗钱模型之后,输出结果:这个账户是洗钱账户(或者不是洗钱账户)的还是不洗钱的。有了输入->黑盒->输出,就构成了一个最基础的AI系统。

4. 多类兼容的I/O模块。

AI系统可能应用于各种领域,因此,需要接受各种不同格式、类型的输入,例如:语音信号(语音识别),传感器数据(工业应用),GPS数据(车联网)等等。这些数据平台都要能够处理。

输出方面,应该可以直接输出简单的结构化数据。也应该能够语音等类型的数据(支持交互式问答系统)。

5. 基于拖拽的"积木式"用户界面。

种种功能就像一块块小积木一样堆在那里,需要哪个,就拖过来用,不需要了,就拽走扔掉——可以随心所欲,任意组合。

这样的系统太理想了,真的能够出现在现实中吗?

向着“人人可用的AI”努力的“小男孩”

偶数科技的LittleBoy平台,就是一个正在行进在理想路上的小男孩。

LittleBoy很像是一个数据科学家。

数据科学家是怎么工作的呢?一般是这样的:

  • 首先,整理好输入,数据中提取出有效的特征。

比如输入是一个关系数据库的大表,里面可能包含1000个column,这些column都可以是这份数据的特征。

  • 然后,选择模型类型(比如选择LR,SVM,GBDT,或者CNN网络等等)和算法,如果选择的是机器学习模型,还需要调参,并进行模型训练。

模型的类型有很多,算法的类型有很多,模型参数的组合则更多——参数组合可能有几百万甚至上千万种。

对于数据科学家而言,要花费大量时间在这里,通过多次的迭代,达到优化的结果。

LittleBoy所作的,就是把数据科学家的这些工作自动化——

【1】特征提取

在使用传统的机器学习系统时,数据科学家要手动选择特征。如果本来有1000个原始特征,数据科学家要自己去尝试其中那些是有效特征,如何组合最能够优化结果。

而这1000个原始特征交给LittleBoy,它会自动做数据预处理包括填空值、正则化等等,然后自动选取有效特征。

【2】模型训练

选取完特征,LittleBoy还会自动进行模型训练——自动选择算法、模型类型,自动调参,迭代训练,根据测试集来做评估,最终得出模型。

【3】模型发布

此外,LittleBoy能够将训练好的模型自动发布。

训练好模型就是为了使用的,需要有专门的系统来读取模型,运行模型,让模型可以预测新的数据。

LittleBoy一旦训练好模型,用户只需要点一下发布按钮,这个模型就会自动生成一个服务。其他人或者程序就可以通过发送REST API来调用它。

【4】以OushuDB为基础的数据管理

我们公司的OushuDB也是解决方案中的重要一环。

它提供数据的统计分析和查询功能。而且与关系数据库和Hadoop系统都是无缝集成的。我们称为新一代数据仓库。

虽然与Hadoop无缝接合,但效率却相对Hadoop有指数级的提升——OushuDB基于SIMD(单指令流多数据流)指令开发了一个新的执行器。在TBCH的标准测试数据集上执行查询操作,比Spark快了几十倍——做到这一点这是非常困难的。

【5】基于云平台

LittleBoy既可以部署在企业私有云上,又有部署在公有云上的公共版本。

以上特点,使得LittleBoy真正达到了零门槛AI系统的水平。

我们去做过实验,找了很多文科背景的学生。他们接受了15分钟到半个小时的培训后,给他们信用卡交易数据,就能做一个简单的信用卡反欺诈模型了!

AI+金融案例分析——反洗钱AI解决方案

下面来分享一个偶数科技做过的真实案例:为某商业银行开发反洗钱AI解决方案。

这家银行拥有约1000万客户,之前用的反洗钱系统是基于规则的,每天输入当日所有的客户交易记录后,大概能报告出200个可能的洗钱账户。

但是再经过进一步的人工排查就会发现,这200个账户里,真正洗钱的账户可能只占1%。也就是说原有系统的准确率非常低。

这当然和规则系统的维护难度也有关,如果规则到了几百条,阅读规则的人就很难找出从头到尾的逻辑了,很可能维护人员自己都不知道规则到底规定了什么。

为了让这样一个低准确率的系统工作,银行要投入一个大概20人的团队,专门来对系统自动发现的账户进行二次判定。这还只是我们这家客户,如果是大型银行,那么这个人工团队有可能要三五百人。

我们利用LittleBoy给银行开发了一个反洗钱模型,这个模型平均每天只给报告约三个可疑的交易账户,准确率非常高,达到了90%以上。

在提供这个查准率极高的模型同时,我们还提供了一个查全率接近100%,而查准率也超过50%的模型。

客户可以参考两个模型的结果,兼顾查准和查全。这样,银行在保证业务的同时,需要投入的人力大大缩减了。

Q1:现在很多大公司在开发AI平台,偶数的优势是什么?

A1:首先,自动机器学习这一块大家都处于早期发展阶段,即使是一线互联网公司等大企业,在这方面并无绝对优势。

而且,我们做的是针对金融和公安领域的,基于高结构化数据的机器学习。我们所做的机器学习自始至终是结合着应用场景在做的。

而国外大公司比如Google和微软,虽然也做机器学习平台,确实在做通用平台,和具体的行业、业务没有绑定关系。

我们还有一个有点就是有自己的数据仓库——OushuDB,数据仓库是我们独立研发的,在功能和性能上都全面把控。尤其在性能上,可以做到极致。这是我们独特的优势。


Q2:在使用Hadoop的过程当中踩过哪些坑?

A2:踩过的Hadoop的坑挺多的。

Hadoop整个生态系统比较复杂。真的想用好所有的组件非常困难。还有,往往很多组件功能是重叠的,其中却没有一个真的把功能做透,性能做高。这是大家用的时候最痛苦的地方。

我的建议是:Hadoop是一个很好的系统,但可能需要精挑细选一些组件来用,最好不要所有的组件全上——这是我们看到的很多Hadoop客户最常犯的一个错误——那样的话运维成本包括学习成本都会非常高。


Q3:LittleBoy和TensorFlow比有什么样不同和优势?

A3:这两个是不同的东西。LittleBoy的定位是自动化机器学习系统,而TensorFlow的定位是深度学习框架。

LittleBoy极大地简化了用户建模的过程,可以傻瓜式操作,零编程完成建模。

TensorFlow只是提供一个机器学习框架,你要训练神经网络,还得自己写代码。


Q4:创业企业相关税收政策的变更,对偶数科技有影响吗?

A4:对我们基本没有影响,因为偶数科技一直是遵守政策做事情的。

当然,对整个创业市场会有一定的影响,因为现在创业市场并不是那么规范。但长期来说应该影响不大。

原文发布于微信公众号 - 悦思悦读(yuesiyuedu)

原文发表时间:2018-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【AI 复始,万象更新】2017 年机器学习技术&市场预测 Top 10

【新智元导读】在新年来临之际,新智元向你推荐 bigML 网站 2017 开年特稿,文章引用权威报告、著名媒体报道等各种数据,从投资、创业、人才、工作内容、竞争...

28810
来自专栏携程技术中心

干货 | 平安银行算法实践

作者简介 潘鹏举, 平安银行大数据平台AI算法和分析团队负责人。2012年加入携程,开始撸代码、写文档、出规范、带团队,曾参与设计算法工程化架构,带领算法团队助...

3786
来自专栏大数据文摘

业界 | 尴尬了,数据故事讲不好,模型再酷炫都没用

导言:数据科学风靡了几年,已经完成了从普及到应用的商业落地,越来越多的公司都已经同意数据驱动战略的重要性,但雇几个数据科学家和有一个数据团队,并不等同于公司就能...

670
来自专栏AI科技评论

洞见 | 专访中科创达王璠:怎样做好嵌入式人工智能的算法开发?

目前在人工智能领域,不管是学术圈还是工业圈,大家都认同一个趋势,那就是在很多应用场景上计算需要落地到设备上,让设备拥有智能化——即嵌入式的AI,这个是人工智能领...

4049
来自专栏新智元

【揭秘】微软亚洲研究院机器学习在做什么?(14篇干货)

机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人...

3166
来自专栏机器之心

GMIS 2017 | 今日头条副总裁马维英:信息流的未来与人工智能的机会

机器之心整理 演讲者:马维英 全球机器智能峰会( GMIS 2017),是全球人工智能产业信息服务平台机器之心举办的首届大会,邀请了来自美国、欧洲、加拿大及国内...

38611
来自专栏数据科学与人工智能

算法与算法工程师,技术与技术人员

在和刘同学长谈之后,我再次对前一段时间的想法进行了反思,结合聊天中的新感受,整理在这里。 (注:标题里的算法,指机器学习算法,或者说“算法工程师”这个职位名称里...

3097
来自专栏ATYUN订阅号

【行业】每个无线网络战略所需的六大AI要素

AiTechYun 编辑:nanan ? 目前,很多人认为,AI已经成为IT行业的主要话题之一。 除了IT方面,AI还有可能在无线网络和SD-WAN中提供重要价...

32510
来自专栏AI科技评论

开发 | 数据咨询师经验之谈:90% 的公司并不需要机器学习

AI科技评论按:掌握一件工具之前,首先要搞清楚用它做什么。而本质是工具的机器学习,近年来逐渐演变成一股潮流。 在美国企业数据方案咨询师 Eric Brown 看...

38714
来自专栏软件测试经验与教训

回复读者留的几个面试题

3584

扫码关注云+社区

领取腾讯云代金券