前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >百度沈国龙:BML百度大规模机器学习云平台实践

百度沈国龙:BML百度大规模机器学习云平台实践

作者头像
用户1737318
发布2018-06-06 11:24:22
1.2K0
发布2018-06-06 11:24:22
举报
文章被收录于专栏:人工智能头条人工智能头条

为了更好帮助企业深入了解国内外最新大数据技术,掌握更多行业大数据实践经验,进一步推进大数据技术创新、行业应用和人才培养,2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办的2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。

2015中国大数据技术大会

BDTC 2015将为期三天,在大会主会之外,拟设立16个分论坛,包括数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育、网络通讯等7大应用论坛,以及政策法规和标准化、数据市场及交易、社会治理等3大热点议题论坛,将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Spark、Kudu、PostgreSQL-X2、YARN、HBase、机器学习/深度学习、推荐系统等热门技术及行业实践。

推荐系统论坛,本次大会邀请到了百度基础架构部高级架构师沈国龙担任演讲嘉宾,进行题为“ BML百度大规模机器学习云平台实践”的主题演讲,分享百度机器学习平台BML的底层框架实现,包括框架演进、算法研究过程等,以及在不同的业务场景下是如何应用这些算法。

沈国龙在接受CSDN的会前采访中表示,大数据其实是一个综合学科,开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式,到微积分、统计、机器学习理论、算法知识、算法调优经验,更重要的是对行业的理解,才能让大数据成功的落地。

对于推荐系统,他认为,覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等,都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。

他还透露,深度学习、在线学习都是他的团队最近在研究的方向。前者比经典算法在特征组合和模型表征上有很大的优越性,更适用于数据维度越来越多的当下,后者主要是为了解决模型迭代速度,使最新的数据更快更好的反映到模型中。同时,他还关注在不同行业数据中,算法的组合应用如何取得最好的效果。

沈国龙

百度基础架构部高级架构师

沈国龙,百度基础架构部技术经理、高级架构师。有多年大数据、商业智能、机器学习的研发经验,在广告、推荐等业务领域有深厚的知识积累。先后负责百度大规模机器学习算法平台BML、分布式计算框架ELF、百度深度学习平台Paddle等的设计研发,在提升机器学习算法分布式计算规模和效率的同时,这个产品组合支持了百度所有重要部门的机器学习需求,先后成功上线上百个智能应用。作为技术负责人参与了百度广告系统大规模模型训练、广告触发、百度搜索结果排序、移动云渠道反作弊等战略级核心项目,取得了巨大的收益。同时担任百度开放云大数据解决方案架构师,为合作伙伴提供广告、推荐系统、自然语言处理等领域的专业技术支持。

以下为沈国龙采访实录:

CSDN:请介绍一下您的工作,以及大数据、推荐系统对公司业务的价值。

沈国龙:我的工作有两个方向,一是大规模机器学习平台的建设和业务支持,包括框架、算法、平台的设计和开发,特定业务场景的模型训练和调优等;二是为百度开放云的用户提供大数据解决方案和相关产品。

百度拥有海量的用户和流量,任何产品都会面临到大数据的问题。如何使用好大数据,并构建出优秀的转化率模型、推荐系统等智能应用,是决定产品成败的关键。百度最重要的搜索和广告业务,都需要大数据的支撑,优化搜索结果和广告的排序,也属于广义上推荐系统的范畴。所以我们是非常重视相关的系统建设,也做了非常多的创新。

CSDN:能否介绍您在项目实施中曾使用过哪些大数据技术?您对这些技术满意的地方和不满意的地方分别有什么?

沈国龙:作为百度的基础架构部门,在优秀大数据的技术上都有投入,比如hadoop、spark、MPI,我们的规模都做到了世界领先。还有自研的一些大数据计算框架,比如处理流式数据的Dstream、TM,机器学习的计算框架ELF等等。这些产品和技术是我们处理大数据必备的。我对这些产品的性能和易用性都很满意,利用百度的这套系统,可以很容易的处理各种大数据问题,搭建服务。

CSDN:能否分别从软件、硬件、开发者的角度谈谈,大数据在您的行业落地目前主要面临哪些挑战?

沈国龙:大数据虽然听起来很美,但要落地有很多的问题。硬件成本高,是很多初创公司面临的首要难题。搭建一套从原始数据处理,到数据分析,再到模型训练、调研,最后到模型上线和迭代,需要大量的存储和计算资源,对于初创企业,自建IDC实施和运维,是非常昂贵的。软件层面的问题相反,是开源社区特别活跃,各种工具层出不穷,选择成了最大的难题,要付出很大的学习成本,并且要承担日后数据量更大之后系统全面推倒升级的风险。大家现在基本都会选择云作为解决方案,百度开放云也提供了整套的大数据产品组合。大数据其实是一个综合学科,开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式,到微积分、统计、机器学习理论、算法知识、算法调优经验,更重要的是对行业的理解,才能让大数据成功的落地。

CSDN:评估一个推荐系统好坏的指标有哪些?技术人员容易犯哪些错误导致推荐系统实践的失败?

沈国龙:指标有很多,比如覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等,都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。所以技术人员不能够认为推荐系统只需要一个auc不错的模型就够了,这是一个非常复杂的系统,要以最终的收入指标为准,做完备的AB测试才能够逐步把系统调节到最优的效果。

CSDN:针对您所在的行业,哪些大数据技术、推荐算法是您目前主要观察和研究的,您为什么看好这些技术?

沈国龙:深度学习、在线学习都是我们最近在研究的方向。深度学习作为机器学习现在最热门的方向,比经典算法在特征组合和模型表征上有很大的优越性,在数据维度越来越多的情况下,深度学习更能胜任。当然计算复杂度和模型调优的难度也随之上升。在线学习主要是为了解决模型迭代速度,使最新的数据更快更好的反映到模型中。同时我们也在关注在不同行业数据中,算法的组合应用如何取得最好的效果。

CSDN:请谈谈您在这次大会上即将分享的话题。

沈国龙:我会分享百度机器学习平台BML的底层框架实现,包括我们的计算框架演进的历史、最新的ELF有哪些特点、算法的研发过程等等。另外,重点讲我们在不同的业务场景下是如何应用这些算法,最终达成业务目标,算是一个案例讲解。相信能给大家带来一些启发。

CSDN:哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?

沈国龙:基础架构的架构师,算法开发人员,数据分析师,产品运营人员,都可以了解这些知识。这可以帮助听众对机器学习在企业内如何落地有一定认识,并且了解大数据现在的主流趋势,对未来的开发和决策都有帮助。

CSDN:能否谈谈您对BDTC2015、其他的讲师分享的话题有什么期待?

沈国龙:希望能够了解下如火如荼的大数据和人工智能创业公司,是如何解决技术和行业应用之间的gap的。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 以下为沈国龙采访实录:
相关产品与服务
腾讯云 TI 平台
腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档