百度沈国龙:BML百度大规模机器学习云平台实践

为了更好帮助企业深入了解国内外最新大数据技术,掌握更多行业大数据实践经验,进一步推进大数据技术创新、行业应用和人才培养,2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办的2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。

2015中国大数据技术大会

BDTC 2015将为期三天,在大会主会之外,拟设立16个分论坛,包括数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育、网络通讯等7大应用论坛,以及政策法规和标准化、数据市场及交易、社会治理等3大热点议题论坛,将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Spark、Kudu、PostgreSQL-X2、YARN、HBase、机器学习/深度学习、推荐系统等热门技术及行业实践。

推荐系统论坛,本次大会邀请到了百度基础架构部高级架构师沈国龙担任演讲嘉宾,进行题为“ BML百度大规模机器学习云平台实践”的主题演讲,分享百度机器学习平台BML的底层框架实现,包括框架演进、算法研究过程等,以及在不同的业务场景下是如何应用这些算法。

沈国龙在接受CSDN的会前采访中表示,大数据其实是一个综合学科,开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式,到微积分、统计、机器学习理论、算法知识、算法调优经验,更重要的是对行业的理解,才能让大数据成功的落地。

对于推荐系统,他认为,覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等,都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。

他还透露,深度学习、在线学习都是他的团队最近在研究的方向。前者比经典算法在特征组合和模型表征上有很大的优越性,更适用于数据维度越来越多的当下,后者主要是为了解决模型迭代速度,使最新的数据更快更好的反映到模型中。同时,他还关注在不同行业数据中,算法的组合应用如何取得最好的效果。

沈国龙

百度基础架构部高级架构师

沈国龙,百度基础架构部技术经理、高级架构师。有多年大数据、商业智能、机器学习的研发经验,在广告、推荐等业务领域有深厚的知识积累。先后负责百度大规模机器学习算法平台BML、分布式计算框架ELF、百度深度学习平台Paddle等的设计研发,在提升机器学习算法分布式计算规模和效率的同时,这个产品组合支持了百度所有重要部门的机器学习需求,先后成功上线上百个智能应用。作为技术负责人参与了百度广告系统大规模模型训练、广告触发、百度搜索结果排序、移动云渠道反作弊等战略级核心项目,取得了巨大的收益。同时担任百度开放云大数据解决方案架构师,为合作伙伴提供广告、推荐系统、自然语言处理等领域的专业技术支持。

以下为沈国龙采访实录:

CSDN:请介绍一下您的工作,以及大数据、推荐系统对公司业务的价值。

沈国龙:我的工作有两个方向,一是大规模机器学习平台的建设和业务支持,包括框架、算法、平台的设计和开发,特定业务场景的模型训练和调优等;二是为百度开放云的用户提供大数据解决方案和相关产品。

百度拥有海量的用户和流量,任何产品都会面临到大数据的问题。如何使用好大数据,并构建出优秀的转化率模型、推荐系统等智能应用,是决定产品成败的关键。百度最重要的搜索和广告业务,都需要大数据的支撑,优化搜索结果和广告的排序,也属于广义上推荐系统的范畴。所以我们是非常重视相关的系统建设,也做了非常多的创新。

CSDN:能否介绍您在项目实施中曾使用过哪些大数据技术?您对这些技术满意的地方和不满意的地方分别有什么?

沈国龙:作为百度的基础架构部门,在优秀大数据的技术上都有投入,比如hadoop、spark、MPI,我们的规模都做到了世界领先。还有自研的一些大数据计算框架,比如处理流式数据的Dstream、TM,机器学习的计算框架ELF等等。这些产品和技术是我们处理大数据必备的。我对这些产品的性能和易用性都很满意,利用百度的这套系统,可以很容易的处理各种大数据问题,搭建服务。

CSDN:能否分别从软件、硬件、开发者的角度谈谈,大数据在您的行业落地目前主要面临哪些挑战?

沈国龙:大数据虽然听起来很美,但要落地有很多的问题。硬件成本高,是很多初创公司面临的首要难题。搭建一套从原始数据处理,到数据分析,再到模型训练、调研,最后到模型上线和迭代,需要大量的存储和计算资源,对于初创企业,自建IDC实施和运维,是非常昂贵的。软件层面的问题相反,是开源社区特别活跃,各种工具层出不穷,选择成了最大的难题,要付出很大的学习成本,并且要承担日后数据量更大之后系统全面推倒升级的风险。大家现在基本都会选择云作为解决方案,百度开放云也提供了整套的大数据产品组合。大数据其实是一个综合学科,开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式,到微积分、统计、机器学习理论、算法知识、算法调优经验,更重要的是对行业的理解,才能让大数据成功的落地。

CSDN:评估一个推荐系统好坏的指标有哪些?技术人员容易犯哪些错误导致推荐系统实践的失败?

沈国龙:指标有很多,比如覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等,都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。所以技术人员不能够认为推荐系统只需要一个auc不错的模型就够了,这是一个非常复杂的系统,要以最终的收入指标为准,做完备的AB测试才能够逐步把系统调节到最优的效果。

CSDN:针对您所在的行业,哪些大数据技术、推荐算法是您目前主要观察和研究的,您为什么看好这些技术?

沈国龙:深度学习、在线学习都是我们最近在研究的方向。深度学习作为机器学习现在最热门的方向,比经典算法在特征组合和模型表征上有很大的优越性,在数据维度越来越多的情况下,深度学习更能胜任。当然计算复杂度和模型调优的难度也随之上升。在线学习主要是为了解决模型迭代速度,使最新的数据更快更好的反映到模型中。同时我们也在关注在不同行业数据中,算法的组合应用如何取得最好的效果。

CSDN:请谈谈您在这次大会上即将分享的话题。

沈国龙:我会分享百度机器学习平台BML的底层框架实现,包括我们的计算框架演进的历史、最新的ELF有哪些特点、算法的研发过程等等。另外,重点讲我们在不同的业务场景下是如何应用这些算法,最终达成业务目标,算是一个案例讲解。相信能给大家带来一些启发。

CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

沈国龙:基础架构的架构师,算法开发人员,数据分析师,产品运营人员,都可以了解这些知识。这可以帮助听众对机器学习在企业内如何落地有一定认识,并且了解大数据现在的主流趋势,对未来的开发和决策都有帮助。

CSDN:能否谈谈您对BDTC2015、其他的讲师分享的话题有什么期待?

沈国龙:希望能够了解下如火如荼的大数据和人工智能创业公司,是如何解决技术和行业应用之间的gap的。


原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-12-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

你可能遇到了”假“的数据科学家

近十年来,“数据科学”和“数据科学家”备受争论。对于哪些人可以被称为是“数据科学家”,争论不休,你很有可能遇到了”假“的数据科学家。 我们最后达成一致:只要取得...

2108
来自专栏AI科技评论

图灵奖得主 Joseph Sifakis : 物联网领域的自主系统设计 | CCF-GAIR 2018

AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了...

1202
来自专栏CDA数据分析师

机器学习的商业应用

机器学习的商业应用就是把真实的场景,真实的商业应用的经验凝练成对每个数据分析师都有价值的功能,逐渐放到产品中。 本期精编版嘉宾演讲为IBM中国开发中心技术总监...

2265
来自专栏前沿科技

中兴视觉大数据报道:人工智能代表了信息技术的未来

中兴之智能视觉大数据报道:预测未来最好的方式是去创造未来。今天与其我们来预测未来的技术,不如根据我们今天已经开始的创新,来谈谈未来的技术。套一句时髦的话,叫作未...

1905
来自专栏机器人网

一台电脑也可打造你所需要的人工智能大脑

当Google使用16000台机器建造了一个可以正确识别出YouTube视频中是否有猫的仿真“大脑”时,这就标志着人工智能(AI)技术迎来了一个转折点。这种新兴...

3387
来自专栏简书专栏

数据分析入门

用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并加以消化,以求最大化的开发数据功能,发挥数据的作用。数据分析可用于现状分析,原因分析,预测...

2022
来自专栏人工智能头条

数据科学家、机器学习工程师与普通的软件工程师有什么不同

1553
来自专栏企鹅号快讯

未来智能实验室确定智能产品AI服务智商权重

前言:本文是未来智能实验室关于智能产品智商的最新研究文章,在提出人工智能的三种智商后,通过德尔菲法,对智能产品AI服务智商的权重进行了确定,为2018年智能产品...

1958
来自专栏企鹅号快讯

每个数据科学家都应该学习4个必备技能

摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为数据科学家的人去学习。 这篇文章对应之前发表过的一篇关于如何成长为一名...

1846
来自专栏CDA数据分析师

你觉得每次技术面试志在必得?数据可能要让你失望了。

原作者  Aline Lerner 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 前言 一般来说,当我们想到面试时,我们会想到当中有...

2166

扫码关注云+社区

领取腾讯云代金券