前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >让人人都能使用AI

让人人都能使用AI

作者头像
叶锦鲤
发布2018-12-05 15:06:14
5820
发布2018-12-05 15:06:14
举报
文章被收录于专栏:悦思悦读悦思悦读

本文是作者在2018年9月25日众智汇社群分享的记录。由@L 记录整理。

作者常雷博士,偶数科技创始人兼CEO。北京大学计算机系博士,曾任EMC高级研究员、EMC/Pivotal研发部总监,长期专注于AI和大数据领域。

Apache HAWQ数据库顶级项目创始人,中国大数据产业生态联盟专家,中国人工智能百人专家,2017年入选美国著名商业杂志《快公司》“中国商业最具创意人物100”榜单。

曾在国内外顶级数据管理期刊和会议(如SIGMOD等)发表数篇论文,拥有多项国际专利。

成为AI创业者

结合关系数据库和Hadoop

我是2008年从北京大学博士毕业的,专业方向是数据库。在博士期间主要做的是数据库、数据仓库、数据挖掘和机器学习的研究工作。

毕业之后我加入了EMC。当时EMC刚开始在中国建立研发中心,而大数据(Big Data)则刚刚开始兴起。我入职后主要做大数据和机器学习相关的工作。

到了2010年左右,Hadoop已经在中美非常流行了,许多企业开始尝试用Hadoop存储、处理大量数据。

Hadoop可扩展性强,但是性能非常差;传统的数据库关系数据库读写查询速度很快,但是可扩展性比较差。所以当时我就想:这两个东西是不是可以结合起来?

为了验证想法,就做了一个原型系统,结合了关系数据库和HDFS。这个系统发布了alpha版,并在沃尔玛进行了试用,反馈非常不错。

开源HAWQ,成为Apache顶级项目

之后我们对原型进行了产品化,起名为HAWQ。HAWQ源自英文的HAWK(鹰),把K改成了Q。

2013年,HAWQ1.0发布,并在全球推广。此后的2年里,很多世界500强公司都已经开始使用。

2015年底,我们把HAWQ开源给了Apache ——大家知道Apache 是世界上最著名的开源组织,很多大数据项目,比如Hadoop,Spark都是Apache孵化的。

开源在中国的发展相对滞后,开源项目还是比较少的。在数据库领域,HAWQ是中国团队贡献的第一个Apache顶级项目。

把HAWQ作为开源给Apache,初衷是为大数据生态做贡献,希望整个生态系统会有好的发展。

除了开源,HAWQ团队在学术领域同样有所贡献,我们的研究成果在SIGMOD发表——世界范围内,在数据库这个领域有三大顶级技术会议,第一个就是SIGMOD,第二是VLDB,第三是ICDE。

走上创业的征途

在取得了这些成绩之后,2016年底,HAWQ团队从原公司独立出来,创立了偶数科技,专注人工智能和数据技术。

偶数科技在2017年先后拿到了两轮融资。2018年的2月份,又加入了微软加速器。

申请微软加速器的过程经过层层选拔,和全球1000多家公司竞争,最终我们得以入选,最终同期总共只有15个公司入选。

坊间传言进入微软加速器也是比进哈佛的难度还高。我们得以入选,也体现了偶数科技在人工智能和数据平台这一块的技术和基础。

AI系统层级

一个完整的AI解决方案,包含下列4个层次:

1. AI硬件层

目前位于这一层的企业很多,包括做CPU、GPU、FPGA,以及专用机器学习的硬件,和传感器等等硬件设备的公司。

硬件是程序运行的基础,具体到AI领域,硬件对于算法、框架的性能提升有很大帮助。

2. 数据平台层

很多人把数据平台和人工智能完全都离开。但是我认为数据平台也是整个AI解决方案的一部分。

毕竟,任何人工智能的操作都是在数据的基础上进行的。人工智能的平台也是基于数据平台之上的。

数据平台又可以分为下列几个部分:

1) 数据仓库

数据仓库负责存储查询和处理结构化数据。

无论是结构化数据、半结构化数据,还是非结构化数据,要做分析的时候,基本95%以上的数据都要转化成结构化的。

因此,数据仓库是数据平台里最重要的一个部分。

2) 流处理

数据产生的速度越来越快,许多数据处理,甚至更进一步的分析都需要实时进行,因此对于流处理的需求日益提高。

3) 图数据管理

现阶段的知识图谱技术,是图数据管理的典型。

知识图谱在许多领域,例如金融反欺诈,犯罪嫌疑人侧写,运动轨迹分析等等,都有所应用。

而知识图谱的底层,则是图数据库。

4) 数据治理

想做一个好的一个项目,数据质量和源数据管理非常重要。

开发者需要把来自多个数据源里的数据整合起来,数据的质量有所保障,才能保证上面的人工智能算法准确率会比较高。

3. 基础AI技术层

AI领域最传统的基于规则判断的控制技术,已经被证明性能很不好,准确率也有很多的问题。

目前应用中,最基础AI技术是机器学习。近年来发展迅速的深度学习是机器学习的子领域。

4. 行业应用层

虽然各个行业都可以应用AI技术,不过目前AI应用较多的主要有:金融、安防、医疗、工业、家居,以及机器人、自动驾驶等行业。

尤其是AI+金融和AI+安防,这两个行业数据量大,数据结构、类型丰富,应用也比较刚性。

比如:反洗钱这个需求。如何根据一个账户的交易行为,判断它是一个洗钱账户?在交易上,特别是洗钱交易有很多这种固定的模式,所以我们可以认为它是一个模式识别问题。

在安防领域也有类似的需求,公安接到了十个案件,里面可能有两个案件是同一伙人做的。但是如何把这两个案件找出来,归并成同一个案件?这也是一个模式识别的问题。

AI在这些领域,有非常大的贡献。

AI公司类别

目前阶段,以AI技术立命的商业企业,可以分为下列几类:

1. AI硬件公司

(1)做CPU、GPU等AI硬件的公司。代表企业比如英特尔。

(2)提供云服务的公司,比如亚马逊,阿里云,华为云等。

(3)数据技术相关的公司,比如Hadoop、Spark,以及传统的数据仓库公司Oracle等。

2. 计算机视觉公司 & 语音公司

以人脸识别、语音识别等为主营业务的公司,例如旷世、科大讯飞等等。

3. 自然语言处理公司

自然语言处理的公司有好几大类,其中有一类专门做客服,比如三角兽,微软也做了很多相关工作。

4. 机器学习平台公司

上层的应用都是基于底层技术的,机器学习是目前的主流AI技术。机器学习平台公司开发机器学习平台,为其他公司提供各种自动化的算法、模型、神经网络等。

偶数科技可以归属到此类,我们开发一款名为LittleBoy的人工智能平台。

AI对传统对行业的渗入

AI是如何渗透进传统行业的呢?我们来看看例子:

信用评分、风险控制是金融领域的刚需也是核心业务内容之一,早期这些业务是用基于规则的方法实现的。

后来开始引入机器学习模型来构建打分卡。

从2015年开始,世界上各大金融公司都开始尝试引入深度学习。

美国三大征信局:Experian、Equifax,和Transunion。前两家在2017年选择和AI创业公司合作,为无信用记录人群进行贷款风险评估。

而Transunion则在2018年新发布了基于神经网络的信用评分系统。

AI在金融领域在慢慢的渗透,用技术来做信用评分以及反欺诈已经成了当前的潮流。

Amazon(亚马逊)虽然是目前世界最大的云供应商,但同时它也是一家电商,它目前也在利用电子商务账户交易信息,来做小额信贷。

传统行业面临的AI挑战

在将AI应用到金融上这一点,国内相对还比较落后。像同盾等征信公司,基本上还是以基于规则的方式做信用评分。

大家当然是不甘落后的,都在探索怎么把人工智能用金融领域里。在探索的过程中,也遇到了很多挑战——

a) 传统行业的业务公司在试图应用AI技术的时候发现:

  • 人工智能太难。要应用AI首先需要熟悉计算机技术,还要理解清楚深度学习,会使用TensorFlow等等。
  • 应用AI需要具备数学知识。需要很扎实的统计学知识,要了解机器学习、数据科学。而这些领域的专业人才都非常难得。

b) 对于AI创业企业而言,想让AI技术真的创造价值,必须熟悉业务领域的专业知识,比如做反洗钱,就要了解反洗钱是怎么回事情,在原有业务中是怎么运作的等等。

因此需要既掌握AI技术,又掌握业务知识的人才——这样的人才非常少,也非常贵。

传统行业企业在试图应用AI技术时非常痛苦,因为它们原有的业务人员和IT人员都无法完成这个任务。

让AI人人可用

计算机刚出现的时候,是大型机,只有大企业才有经济实力承担购买和使用的费用。

但是后来经过几十年的发展,出现了小型机、PC、Laptop,慢慢手机也可以当小电脑使用了。如今,每个人都能用上计算机了。

人工智能也是一样。AI现在处于对应于计算机大型机的时代,现阶段只有大公司才有实力雇佣高端专业人才来使用它。

虽然现在如此,我们却相信AI的未来一定也像今天的计算机一样,是普通人很简单的就能学会,老百姓人人都能用起来的。

比如:某公司HR经过半小时培训,开发了一款自动筛选简历的AI工具,自动判断海量应聘的简历是否符合公司要求——这样的情形是不是我们希望出现的?

要达到如此的易用,AI技术需要解决两个问题:易用和性能。

易用是指AI工具应该简单到让普通人很容易上手。

性能则是说,要让用户有好的体验,就需要尽量达到实时性。

如果做数据分析,你肯定不希望发送一个SQL语句后,等2个小时数据库程序才给你返回吧。

早年的互联网(八九十年代)网速非常慢。打开一个网页都要等好久,当时上网是一件非常痛苦的事情。

随着网速的提升,体验也逐渐不一样了。能够立刻得到答复,这一点是交互式应用的基础。

无论人工智能还是数据分析,要具备交互性,就要先解决性能问题。

所以说我们做的这个事情基本上都是想让普通老百姓,包括数据科学家能够的有很好的体验来做人工智能。

让机器学习全生命周期“拖拽可得”的AI平台

如果有一个平台,真的可以让普通老百姓都能够应用AI技术,那它应该是什么样子的呢?按我们的构想,它应该具备以下特点:

1. 底层基于云平台。

云计算虚拟化、统一管理、随处可见的特性,使得它已经广泛应用于各类企业的IT产品和服务。我们的AI平台既然追求简单易用,自然不应该让用户遭受安装系统和各种工具的烦恼,云计算是一个天然的好训责。

2. 底层之上,有内置的数据管理系统(数据库)作为支持。

所有的机器学习、深度学习都是基于数据的,而且可能需要的训练集相当庞大。为了让非专业用户可以轻易的传输、处理数据,应当有内置的数据管理系统,而不是要求用户自己再去搭建数据库。

3. 核心层是零门槛的机器学习建模平台。

因为目标用户是普通人/小白/初学者/零基础的用户,因此,不应该将大量的参数和公式暴露给他们,而是把机器学习模型封装成黑盒,只要有输入,黑盒就能给出一个输出。

举个例子:洗钱应用的输入是所有账户的交易数据。比如今天这个账户一共有500笔转账,每笔转账了1万块钱,这是输入数据。经过黑盒子反洗钱模型之后,输出结果:这个账户是洗钱账户(或者不是洗钱账户)的还是不洗钱的。有了输入->黑盒->输出,就构成了一个最基础的AI系统。

4. 多类兼容的I/O模块。

AI系统可能应用于各种领域,因此,需要接受各种不同格式、类型的输入,例如:语音信号(语音识别),传感器数据(工业应用),GPS数据(车联网)等等。这些数据平台都要能够处理。

输出方面,应该可以直接输出简单的结构化数据。也应该能够语音等类型的数据(支持交互式问答系统)。

5. 基于拖拽的"积木式"用户界面。

种种功能就像一块块小积木一样堆在那里,需要哪个,就拖过来用,不需要了,就拽走扔掉——可以随心所欲,任意组合。

这样的系统太理想了,真的能够出现在现实中吗?

向着“人人可用的AI”努力的“小男孩”

偶数科技的LittleBoy平台,就是一个正在行进在理想路上的小男孩。

LittleBoy很像是一个数据科学家。

数据科学家是怎么工作的呢?一般是这样的:

  • 首先,整理好输入,数据中提取出有效的特征。

比如输入是一个关系数据库的大表,里面可能包含1000个column,这些column都可以是这份数据的特征。

  • 然后,选择模型类型(比如选择LR,SVM,GBDT,或者CNN网络等等)和算法,如果选择的是机器学习模型,还需要调参,并进行模型训练。

模型的类型有很多,算法的类型有很多,模型参数的组合则更多——参数组合可能有几百万甚至上千万种。

对于数据科学家而言,要花费大量时间在这里,通过多次的迭代,达到优化的结果。

LittleBoy所作的,就是把数据科学家的这些工作自动化——

【1】特征提取

在使用传统的机器学习系统时,数据科学家要手动选择特征。如果本来有1000个原始特征,数据科学家要自己去尝试其中那些是有效特征,如何组合最能够优化结果。

而这1000个原始特征交给LittleBoy,它会自动做数据预处理包括填空值、正则化等等,然后自动选取有效特征。

【2】模型训练

选取完特征,LittleBoy还会自动进行模型训练——自动选择算法、模型类型,自动调参,迭代训练,根据测试集来做评估,最终得出模型。

【3】模型发布

此外,LittleBoy能够将训练好的模型自动发布。

训练好模型就是为了使用的,需要有专门的系统来读取模型,运行模型,让模型可以预测新的数据。

LittleBoy一旦训练好模型,用户只需要点一下发布按钮,这个模型就会自动生成一个服务。其他人或者程序就可以通过发送REST API来调用它。

【4】以OushuDB为基础的数据管理

我们公司的OushuDB也是解决方案中的重要一环。

它提供数据的统计分析和查询功能。而且与关系数据库和Hadoop系统都是无缝集成的。我们称为新一代数据仓库。

虽然与Hadoop无缝接合,但效率却相对Hadoop有指数级的提升——OushuDB基于SIMD(单指令流多数据流)指令开发了一个新的执行器。在TBCH的标准测试数据集上执行查询操作,比Spark快了几十倍——做到这一点这是非常困难的。

【5】基于云平台

LittleBoy既可以部署在企业私有云上,又有部署在公有云上的公共版本。

以上特点,使得LittleBoy真正达到了零门槛AI系统的水平。

我们去做过实验,找了很多文科背景的学生。他们接受了15分钟到半个小时的培训后,给他们信用卡交易数据,就能做一个简单的信用卡反欺诈模型了!

AI+金融案例分析——反洗钱AI解决方案

下面来分享一个偶数科技做过的真实案例:为某商业银行开发反洗钱AI解决方案。

这家银行拥有约1000万客户,之前用的反洗钱系统是基于规则的,每天输入当日所有的客户交易记录后,大概能报告出200个可能的洗钱账户。

但是再经过进一步的人工排查就会发现,这200个账户里,真正洗钱的账户可能只占1%。也就是说原有系统的准确率非常低。

这当然和规则系统的维护难度也有关,如果规则到了几百条,阅读规则的人就很难找出从头到尾的逻辑了,很可能维护人员自己都不知道规则到底规定了什么。

为了让这样一个低准确率的系统工作,银行要投入一个大概20人的团队,专门来对系统自动发现的账户进行二次判定。这还只是我们这家客户,如果是大型银行,那么这个人工团队有可能要三五百人。

我们利用LittleBoy给银行开发了一个反洗钱模型,这个模型平均每天只给报告约三个可疑的交易账户,准确率非常高,达到了90%以上。

在提供这个查准率极高的模型同时,我们还提供了一个查全率接近100%,而查准率也超过50%的模型。

客户可以参考两个模型的结果,兼顾查准和查全。这样,银行在保证业务的同时,需要投入的人力大大缩减了。

Q1:现在很多大公司在开发AI平台,偶数的优势是什么?

A1:首先,自动机器学习这一块大家都处于早期发展阶段,即使是一线互联网公司等大企业,在这方面并无绝对优势。

而且,我们做的是针对金融和公安领域的,基于高结构化数据的机器学习。我们所做的机器学习自始至终是结合着应用场景在做的。

而国外大公司比如Google和微软,虽然也做机器学习平台,确实在做通用平台,和具体的行业、业务没有绑定关系。

我们还有一个有点就是有自己的数据仓库——OushuDB,数据仓库是我们独立研发的,在功能和性能上都全面把控。尤其在性能上,可以做到极致。这是我们独特的优势。


Q2:在使用Hadoop的过程当中踩过哪些坑?

A2:踩过的Hadoop的坑挺多的。

Hadoop整个生态系统比较复杂。真的想用好所有的组件非常困难。还有,往往很多组件功能是重叠的,其中却没有一个真的把功能做透,性能做高。这是大家用的时候最痛苦的地方。

我的建议是:Hadoop是一个很好的系统,但可能需要精挑细选一些组件来用,最好不要所有的组件全上——这是我们看到的很多Hadoop客户最常犯的一个错误——那样的话运维成本包括学习成本都会非常高。


Q3:LittleBoy和TensorFlow比有什么样不同和优势?

A3:这两个是不同的东西。LittleBoy的定位是自动化机器学习系统,而TensorFlow的定位是深度学习框架。

LittleBoy极大地简化了用户建模的过程,可以傻瓜式操作,零编程完成建模。

TensorFlow只是提供一个机器学习框架,你要训练神经网络,还得自己写代码。


Q4:创业企业相关税收政策的变更,对偶数科技有影响吗?

A4:对我们基本没有影响,因为偶数科技一直是遵守政策做事情的。

当然,对整个创业市场会有一定的影响,因为现在创业市场并不是那么规范。但长期来说应该影响不大。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智汇AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 TI 平台
腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档