一周简报|Uber推出机器学习平台Michelangelo,可训练API

声网SDK与V-cube达成战略合作,共同开拓日本视频市场;北汽与百度签署战略合作,打造“人工智能+汽车”生态;智齿客服加入“大数据星火联盟” 助力企业服务转型成燎原之势。

声网SDK与V-cube达成战略合作,共同开拓日本视频市场

威立方V-cube成立于1998年,于2013年12月上市,并于2015年7月22日登陆东证主板。威立方V-cube是亚洲排名第一的视频会议供应商,目前公司分布于中国、新加坡、美国、日本、马来西亚、泰国、印度尼西亚以及欧洲等地。

声网Agora.io成立于2014年,总部位于硅谷,在上海设有研发中心,致力于为开发者提供高质量的实时音视频通话、互动连麦直播和游戏音视频服务。开发者只需简单集成SDK,即可让App实现高清音视频通话和直播功能。目前声网共服务全球超过10万名开发者,日通话分钟数达亿级。

自2003年威立方V-cube发力视频会议系统以来,一直致力于为全球范围内的公司提供快速高效高质量的视频会议服务。此次接入声网Agora.io的实时音视频和全互动直播SDK,将为威立方V-cube的客户提供更多样化、更专业的实时音视频和全互动直播服务,也将助力威立方V-cube在日本乃至全球市场上拓展泛娱乐、直播、教育、电商、医疗、房地产等多更多商业机会。

声网Agora.io的实时音视频和全互动直播SDK依托其全球近100个数据中心自建的虚拟通信网SD-RTN™,能够优化互联网的传输,为全球的开发者提供稳定可靠高可用的音视频通话、全互动直播和游戏音视频。

声网Agora.io的实时音视频和全互动直播SDK已经被广泛应用于互联网的各个垂直领域,比如社交、教育、医疗、游戏、呼叫中心,到直播,再到AI、AR、VR、IoT领域,都有大量创新场景和应用。声网Agora.io的SDK已经在包括中国、日本、欧美、印度等各个国家和地区得到广泛应用,百度、阿里、小米、陌陌、花椒、熊猫、狼人杀、印度版微信Hike、美国版陌陌Meetme等都与声网 Agora.io 开展了深度合作。

北汽与百度Apollo开放平台签署战略合作,打造“人工智能+汽车”生态

北汽集团党委书记、董事长徐和谊表示:随着人工智能技术的兴起,传统制造业正在面临一场前所未有的大变革,需要我们以更加创新、开放的精神,积极迎接未来。智能化是全球汽车产业的发展趋势,也是北汽集团向制造服务型和创新型企业转型的重要路径之一。我们希望通过与百度的合作,在自动驾驶、智能网联和智慧交通领域提出更多解决方案,为用户提供更加美好的出行生活。

百度创始人、董事长兼CEO李彦宏表示:一百多年前,汽车完成了从零到一的进程,不仅深刻改变了人们的出行生活方式,更创造了崭新工业系统,并且一直引领制造业前沿创新。今天,百度与北汽这样的优秀汽车制造企业走到一起,将完成自动驾驶汽车的从零到一的创新与应用,并推动中国汽车工业乃至整体制造业水平进入全新的历史阶段。

现场,双方宣布在自动驾驶方面,将以百度Apollo开放平台与北汽集团车辆平台为基础,借助百度人工智能核心技术,于2019年前后实现L3级别自动驾驶车辆量产,2021年前后实现L4级别自动驾驶车辆量产。同时,在车联网方面,百度Apollo将DuerOS、车辆信息安全、图像识别等产品和技术与北汽集团车载系统深度融合,共同打造一站式车联网产品。预计到2018年底,北汽集团自主品牌全面搭载百度Apollo车联网产品,到2019年,搭载百度车联网产品的北汽集团旗下车辆将突破100万台。此外,双方共同探讨在云服务领域展的相关合作,打造全新云生态系统,探索智慧交通、移动出行等大数据增值服务。

按照规划,双方合作的解决方案将逐步应用于北汽集团的乘用车、商用车、新能源汽车的各个车型上,形成北汽集团“集团化2.0”时代智能化发展的新格局,百度Apollo开放平台在汽车产业全面落地。

百度副总裁邬学斌表示,北汽集团和百度共同承担着推动中国汽车产业升级,助力中国汽车产业在新一轮全球竞争中脱颖而出的历史使命。此次双方合作的广度和深度,在行业内尚属先例,将为全行业探索“人工智能+汽车”全方位深度融合的生态系统起到示范作用。

北汽集团是中国骨干汽车企业集团之一,目前已建成自主品牌、合资合作、新能源汽车、零部件、服务贸易等十大业务板块综合发展的产业体系。百度则是全球领先的人工智能科技公司,拥有领先的自动驾驶技术。在人工智能的大势之下,科技公司与传统车企的跨界合作成为一种潮流。百度和北汽集团此次合作将更全面、更深度地综合双方优势,为行业树立跨界融合的优秀范本,一同探索中国汽车产业智能化升级之路。

智齿客服加入“大数据星火联盟” 助力企业服务转型成燎原之势

神策2017数据驱动大会在北京丽亭华苑酒店如期举行。大会为期两天,来自全球大数据和人工智能领域的领袖人物聚首北京,围绕“智能·追本数源”主题,探讨大数据与人工智能浪潮下最前沿技术与行业经验,洞见未来趋势,推动数据驱动落地中国。

本届数据驱动大会为赋能中国企业健康、高效地数字化转型也起了推动作用。会议期间,“大数据星火联盟”正式成立。该联盟由神策数据牵头,目前已有智齿客服、拉勾云人事、荣之联、智慧芽、达观数据等企业加盟,旨在加速企业在大数据领域、人工智能领域、云计算领域的创新,通过优质资源共享,助力企业完成核心业务的全面数字化和信息资源的创新应用,赋能企业数字化转型,提高企业效率。

重要演讲

智齿客服CEO被邀请在人工智能前沿论坛分享关于《融合+智能构建未来客服新形态》的主题演讲。徐懿讲到了,美国的企业服务行业大致经历三个阶段:从信息化到云化再到AI化,信息化是迎合企业信息管理的需求,估值上千亿美金;云化是迎合云计算发展的浪潮,提供更快更好用的服务;AI化是通过AI技术帮助企业更好的开源、节流、管理。中国的企业服务还处在早期阶段,但是发展非常迅猛,中国企业服务厂商跑步进入共产主义,直接信息化、云化、AI化、移动化。

未来趋势——“融合化”和“智能化”

融合化

作为智能客服领域的领军者,徐懿认为未来客服的趋势是“融合+智能”的,现在的客服面临的挑战是渠道多样、功能不融合、数据未挖掘。而智齿客服融合+智能构建客服新生态,融合上做到了渠道融合,整合企业对外提供服务的所有渠道,如桌面网站、APP、微博、微信等等;功能融合,统一管理,AI驱动客服,智齿拥有客服机器人、在线客服、呼叫中心、工单系统、AI大数据分析平台等一整套客户服务系统;数据融合,客户信息、接待数据、融合统一分析。

智能化

在智能上,包含了智能质检,自动筛选问题会话,提高300%质检效率,只需要1/5的人就可以从事原来的质检工作;基于用户情绪和操作行为的精准推荐;还构建了智齿360°,让客户拥有一个智慧的大脑,基于客户情感值分析、会话焦点概览、访客地理位置分布、客服词云分析、机器人焦点话题等来进行潜在商机挖掘。

Uber推出机器学习平台Michelangelo:全面推动AI民主化,可训练API

Uber Engineering 致力于开发新技术,为客户创建无缝衔接、影响深远的体验。我们不断增加对人工智能和机器学习的投入,来完成这个设想。我们对此作出的贡献就是 Michelangelo,一个内部的机器学习即服务平台,该平台促使机器学习民主化,使扩展后的 AI 能够满足业务需求,像叫车一样简单。

Michelangelo 使内部团队能够无缝构建、部署和运作适合 Uber 量级的机器学习解决方案。Michelangelo 可以覆盖端到端的机器学习工作流:管理数据、训练、评估和部署模型,预测,以及监控预测。该系统还支持传统的机器学习模型、时间序列预测和深度学习。

Uber 已经在生产中使用 Michelangelo 长达一年左右,该系统已经成为 Uber 工程师和数据科学家实际使用的机器学习系统,几十个团队使用它构建和部署模型。实际上,该系统在多个 Uber 数据中心上部署,影响专门硬件,以及对 Uber 最高加载量的在线服务提供预测。

本文,我们将介绍 Michelangelo,讨论生产使用案例,以及介绍这个新机器学习系统的工作流程。

系统架构

Michelangelo 由一系列开源系统及内置组件构成。主要的开源组件有 HDFS、Spark、Samza、Cassandra、MLLib、XGBoost 和 TensorFlow。我们通常倾向于使用成熟可用的开源组件,并在需要时复制、自定义以及回馈。不过当开源方案不适合我们的应用案例时,我们有时会亲自打造系统。

Michelangelo 构建在 Uber 数据和计算基础设施之上,有一个存储 Uber 所有业务与记录数据的数据湖,Kafka 经纪人汇总来自 Uber 所有服务的记录信息,Samza 流计算引擎管理 Cassandra 集群和 Uber 的上门服务配置和部署工具。

下文中,我们将逐层介绍 Michelangelo 的技术细节。

机器学习工作流程

Uber 几乎所有机器学习用例中都存在相同的一般工作流程,无论手头的挑战是分类、回归,还是时间序列预测等。工作流程通常与实现无关,因此很容易扩展以支持新的算法类型与框架,比如更新的深度学习框架。它还应用于不同的部署模式,比如线上、线下(以及车载和手机)预测应用案例。

我们专门设计了 Michelangelo,从而提供可扩展、可信赖、可再现、易于使用且自动化的工具处理以下的工作流程。

  • 数据管理
  • 模型训练
  • 模型评估
  • 模型部署
  • 执行预测
  • 监控预测

下面,我们将会详细介绍 Michelangelo 的架构如何促进了工作流程的每一阶段。

数据管理(略)

模型训练

当下,我们支持决策树、线性与 logistic 模型、无监督模型(k-均值)、时序模型和深度神经网络的大规模线下分布式训练。我们通常添加新算法来回应用户需求,新算法由 Uber 人工智能实验室和其他内部研究者共同开发。此外,通过提供自定义训练、评估以及服务代码,我们也让用户团队添加自己的模型类型。这一分布式模型训练系统扩展以处理数十亿的样本和小数据集,从而实现快速迭代。

模型配置有特定的模型类型、超参数、数据资源引用、特征 DSL 表达式以及计算资源需求(机器的数量、多少内存、是否使用 GPU 等)。它被用来配置在 YARN 或 Mesos 集群上运行的训练工作。模型训练之后,性能指标(比如 ROC 和 PR 曲线)被计算并整合到模型评估报告之中。训练结束,原始配置、已学习的参数以及评估报告被保存回模型库以供分析和部署。

除了训练单一模型,Michelangelo 还支持所有模型类型和分区模型的超参数搜索。通过分区模型,我们基于来自用户的配置自动分区训练数据,接着在每区上训练一个模型,并在需要时返回到父模型。

训练工作通过一个网页 UI 或者 API(常常是 Jupyter notebook)被配置和管理。很多团队使用 API 和工作流程工具安排模型常规的再训练。

图 3:模型训练工作使用 Feature Store 和训练数据库数据集训练模型,接着将其推送到模型库。

模型评估

模型通常作为探索流程中的一部分进行训练,以确定一系列适用于问题的最佳模型及其特征、算法和超参数。对给定使用案例提供完美模型之前,训练数百个无效的模型并不少见。尽管这些模型最终没有用于生产过程,但其性能指引工程师找到具备最佳性能的模型配置。跟踪这些训练模型(如训练者、训练时间、使用的数据集和超参数等)、评估和对比模型,在处理这么多模型的时候是一个很大的挑战,这也更有机会扩展平台。对于每一个在 Michelangelo 中训练的模型来说,我们在 Cassandra 的模型库中储存了带版本的模型。该库包含:

  • 模型训练者
  • 训练的开始时间和结束时间
  • 完整模型配置(使用的特征、超参数值等)
  • 训练和测试数据集的引用
  • 每个特征的分布和相对重要性
  • 模型准确率指标
  • 每个模型类型的标准图表和图
  • 模型学得的所有参数
  • 模型可视化的概要统计

模型准确度报告

回归模型的模型准确率报告显示标准准确率度量和图表。分类模型可以展示一个不同的度量和图表,如图 4、图 5 所示:

图 4:回归模型报告展示回归相关的性能度量。

图 5:二元分类性能报告展示分类相关的性能度量。

决策树可视化

对于重要的模型类型,Uber 提供复杂的可视化工具,帮助建模人员理解模型的行为原理,同时在必要的时候帮助调试。在决策树模型中,我们让用户浏览每棵子树,了解它们对整个模型的重要性、切分点、每个特征对特定树的重要性,以及每个切分点上的数据分布等等。用户可以指定特征值,可视化将描述触发的到达决策树的路径、每棵树的预测、模型的总体模型,如图 6 所示:

图 6:使用树型可视化可以探索的树模型。

特征报告

Michelangelo 提供特征报告,报告展示了特征对模型的重要性顺序,部分依赖图和分布矩形图。选择两个特征使用户理解特征的相互作用是一个双向的部分依赖图,如下图所示:

图 7:特征及其模型的影响,以及特征之间的相互作用均可以通过特征报告得知。

模型部署

Michelangelo 可通过 UI 或 API 对模型部署管理提供端到端的支持,模型可通过以下三种方式部署:

  • 离线部署(Offline deployment):模型可部署在离线容器(container)中,并且在 Spark 项目上运行,以按照即期或计划表的方式生成批量预测。
  • 在线部署(Online deployment):模型可部署在在线预测服务集群中,即一般部署在负载平衡器(load balancer)后的数百台机器中,其中客户端可发送独立或批量的预测请求作为 RPC 调用。
  • 软件库部署:我们正在推出一个部署到服务容器的模型,该模型可在另一个服务容器中嵌入为一个软件库,并可以通过 Java API 进行调用。在下图中并没有显示这一过程,不过其和在线部署的方式十分相似。

图 8:模型仓库中的模型可部署在在线和离线容器中以提供服务。

在所有情况中,要求的模型文件(元数据文件、模型参数文件和编译的 DSL 表达式)需要打包到 ZIP 存档中,并且还需要在 Uber 数据中心使用标准的代码部署基础设施复制相关的 hosts 文件。预测容器从磁盘自动加载新的模型,并且开始处理预测请求。

进行预测

一旦服务容器部署并加载了模型,那么这些模型就能基于从数据流程或直接从客户端加载的特征数据进行预测。原始的特征会通过编译的 DSL 表达式传递,它可以修正原始特征并且从 Feature Store 获取额外的特征。构建的最终特征向量会传递到模型以进行评分。在在线模型的情况下,预测会通过网络返回到客户端中。在离线模型的情况中,预测将会被写回 Hive,并且能被下游批处理或者用户能直接通过基于 SQL 的询问工具存取,描述如下:

图 9:使用一组特征向量通过在线和离线预测服务生成预测。

基于 Michelangelo 的建构

接下来的几个月,我们计划继续扩展并强化现有的系统以支持我们的客户团队与 Uber 整体业务的增长。随着平台层的成熟,我们计划投资更高级的工具和服务以推动机器学习民主化,并更好地支持我们的业务需求:

  • AutoML。该系统可以对给定的问题建模,自动搜索并发现最佳模型的模型配置(算法、特征集、超参数值等)。该系统还可以自动构建生产数据 pipeline,以生成推动模型所需的特征和标签。我们的 Feature Store、统一的离线和在线 pipeline、超参数搜索特征已经解决了很大问题。我们计划通过 AutoML 加速早期的数据科学工作。该系统允许数据科学家指定标签集和目标函数,然后用最安全、注重隐私的方式使用 Uber 数据,以找到该问题的最佳模型。其目标在于用智能工具简化数据科学家的工作,从而提高他们的生产力。
  • 模型可视化。理解与调试模型越来越重要,尤其是对于深度学习而言。尽管通过可视化工具我们在基于树的模型方面迈出了最初的重要几步,更多的需求被满足,进而帮助数据科学家理解、调试其模型,用户也会信任结果。
  • 在线学习:大多数 Uber 机器学习模型直接实时影响了 Uber 产品。为了保护我们的模型在不同环境的准确性,模型需要随着环境的改变而变化。如今,我们的团队会定期在 Michelangelo 上重训练他们的模型。这种案例的全平台解决方案涉及到易于更新的模型、可快速训练、评估架构和 pipelines、自动模型验证和部署、复杂的监控和预警系统。虽然这是一个大项目,早期结果表明适当的在线学习可以产生很好的收益。
  • 分布式深度学习。不断增加的 Uber 机器学习系统正在实现深度学习技术。在深度学习模型上定义和迭代用户工作流程与标准的工作流程非常不同,因此其需要独特的平台支持。深度学习项目通常需要处理更大数量的数据,并且不同的硬件需求(即 GPU)加大了对分布式学习的投入,更紧密地整合灵活性资源管理堆栈。

原文发布于微信公众号 - BestSDK(bestsdk)

原文发表时间:2017-10-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

关于机器学习在网络安全中的五大误解

机器学习已经渗透到了人类活动的所有领域,它不仅在语音识别、手势识别、手写识别和图像识别上起着关键的作用,这些领域如果没有机器学习在现代医学、银行、生物信息和存在...

2085
来自专栏大数据文摘

关于机器学习在网络安全中的五大误解

2812
来自专栏思影科技

社会交互时的脑网络变化可反映社会网络结构

来自密歇根州立大学的Ralf Schmälzle等人在PNAS上发文,主要介绍了社交交互过程中的脑网络的大脑连接的变化,并发现基于脑网络可以一定程度地揭示社交网...

3506
来自专栏PPV课数据科学社区

【案例】浅谈医学大数据是怎么回事?

编者按:本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理...

2993
来自专栏新智元

深度学习识别10000物种,手机上的@博物杂志

【新智元导读】iNaturalist 推出一个识别动物和植物物种的app,使用TensorFlow训练神经网络,已经能够识别出超过10000种不同的物种,而且每...

4415
来自专栏吉浦迅科技

看Jetson TX2如何提高农作物产量

每年,农民都在尽力减少因病害造成的作物损失。仅在2016年,大约有8.17亿蒲式耳的玉米因病害而损失。尽早识别和治疗这些病害会给农民带来很大的帮助,但是专家走遍...

2352
来自专栏奇点大数据

如何看待人工智障?

在这之中,有很多人其实对人工智能是持有怀疑态度的,或是无神论者或是有神论者,持有这种观点的人都是大有人在。

1073
来自专栏机器人网

在这些机器人应用上,力传感器完爆视觉系统

多年来,工业机器人并不能监测他们周围的环境。随着越来越多各种不同的传感器引入到机器人上,他们现在能“感觉”到他们正在处理什么、能“看”到他们在做什么或谁在他们周...

2888
来自专栏人工智能快报

人工智能平台可有效预测网络攻击

现今使用的安全系统通常分为两类:基于人或机器的安全系统。所谓“分析师驱动的解决方案”(analyst-driven solutions)基于的是真人专家所建立的...

3465
来自专栏机器学习人工学weekly

机器学习人工学weekly-12/17/2017

1. 第一当然是NIPS啦(注意看上一期NIPS在Facebook上的视频)。NIPS开完,各种资料分析就出来啦,对我们这种没有机会去现场的人来说是个福音。 t...

3206

扫码关注云+社区

领取腾讯云代金券