刘鹏:不了解计算广告就难以真正理解大数据

大数据、人工智能技术变现的模式,当前首推在线广告。《计算广告》一书作者刘鹏(@北冥乘海生)近日接受了CSDN记者的专访,介绍了技术从业者需要如何响应计算广告的发展。

刘鹏表示,不了解计算广告,就不可能深入地了解互联网,也不太容易真正理解大数据。技术从业者需要从行业、宏观的角度认识这个领域,进而掌握相应的思考方法和技术,包括商业产品的思路和工作方法,信息检索、机器学习、最优化、博弈论等基础数学工具,以及Hadoop、Spark和其他开源工具为核心的大数据基础设施等。

他认为,在计算广告中人工智能/机器学习应用的挑战更加巨大:面对的是有千万网民的反馈形成的、快速变化的数据空间,并没有确定的ground truth,也无法通过均匀地对总体空间进行采样构建鲁棒的训练集,更为严重的是,由于建模的是人的行为,而人的行为又极大程度地受到系统输出的影响。


刘鹏 360商业产品首席架构师

刘鹏现任360商业产品首席架构师,负责 360 商业化变现的产品和技术。曾任微软亚洲研究院研究员、雅虎北京研究院高级科学家 ( 负责全球搜索广告、受众定向广告、个性化内容等项目 ) 、 MediaV 首席科学家 ( 负责算法和数据平台 ) 、以及搜狐集团研究院负责人。


以下为采访文字实录:

CSDN:您的新作《计算广告》,宣传是“世界第一本关于计算广告的书籍”,也就是说计算广告是一门比较新的课题,首先请简单介绍您在这个领域所做的工作。

刘鹏:如果出于宣传的目的,称此书为“世界第一本关于计算广告的书籍”,我现在是不拒绝的,毕竟咱们也得向一些年轻的创业者们学一点儿吹牛的皮毛。关上门来说,这当然不是第一本与计算广告相关的书籍。不过我们写此书的动力,确实是看到市场上全面介绍这一领域的商业逻辑与产品技术的出版物太稀缺了,而“计算广告”这个问题对于互联网企业来说又太重要了。互联网在风口上,计算广告在风口上,但为这个领域写一本全面的入门读物不在风口上,不在风口上的事,才有真正的社会增量价值。于是,当然而不让,我们整理了这本书,希望起到抛砖引玉的作用。

其实我在这个领域也只能算是个小学生,因为这也是一个新兴的工业界问题,没有什么真正的专家和权威,只有无限的未来和发展。由于我在过去的工作中,深入参与过的广告产品比较多:从搜索广告到显示广告、从需求放到供给方,都有过一些一线的经验,近年来又深入接触了很多用户产品的运营者和创业者,了解了一些他们对于变现的困惑与渴望,这些经验是本书写作的基础。

CSDN:能否从计算广告形成的背景、发展的趋势出发,分享计算广告对当今技术从业者带来的影响?

刘鹏:首先,不了解计算广告,就不可能深入地了解互联网,因为广告之成了全世界互联网行业的大部分收入;其次,不了解计算广告,也不太容易真正理解大数据,因为大数据最早的应用,也是到目前为止唯一获得规模化营收的应用,就是在线广告。对于技术从业者而言,我们特别希望大家从行业的、宏观的视角去了解这一领域,进而掌握相应的思考方法和技术,而不是一上来就纠结于“点击率模型应该用什么比较好”这样形而下的问题。

CSDN:基于大数据,目前很多互联网公司的都采用了机器学习来做各种预测分析,那么为了实现更精准高效的效果,计算广告必然要走向与人工智能、机器学习尤其是深度学习的结合吗?

刘鹏:谈到人工智能,我的看法是,人工智能领域发展的一个的重点方向,将会从认知和模拟自然世界,向认知和响应社会现象进发。在传统的语音识别、人脸识别这样的人工智能应用中,我们是在对一个基本确定的、变化不快的数据空间进行建模;而在计算广告这样的应用中,我们面对的是有千万网民的反馈形成的、快速变化的数据空间。在后者这样的问题中,并没有确定的ground truth,也无法通过均匀地对总体空间进行采样构建鲁棒的训练集,并且更为严重的是,由于建模的是人的行为,而人的行为又极大程度地受到系统输出的影响。因此,面向社会现象的的人工智能问题,将会更加有挑战,也更加令人兴奋。从工具上来说,除了基本的机器学习(包括近年来兴起的深度学习)、信息检索,更多博弈论和强化学习的手段在这类问题中才会真正找到用武之地,从而真正成熟起来。

CSDN:面对计算广告的任务,技术人员需要掌握哪些方面的技能和工具?有没有比较好的学习路径以及职业发展规划可以推荐?另外,您的团队在相关的工作中又是使用了哪些工具?

刘鹏:计算广告是个相当综合的问题,对于每个技术人员来说,需要对整体框架和关键产品技术有所了解,但是很难、也并不见得需要对其中的每个方面都做到精通。总体而言,我认为目前最为稀缺的,是掌握了商业产品的思维方式、有实战经验和运营落地思路的产品经理,以及对广告系统全貌有把握能力的架构师,关于这两个大方向,可以要结合自己的兴趣和特长做些职业规划。从学习路径上来看,我反对以工具为中心,支持以问题为中心的学习方法,换句话说,我真心希望大家在看我们的书时以通读和理解问题为主、以精读和解决问题为辅——毕竟对于工业界来说,将问题形式化地描述出来,就解决了一大半。

如果说到具体的基础技能,我觉得一方面是商业产品的思路和工作方法,这一点与用户产品用巨大的不同;另一方面是信息检索、机器学习、最优化、博弈论这些基础数学工具;再有就是以Hadoop、Spark和其他开源工具为核心的大数据基础设施。有关哪些人需要掌握哪些基础知识,以及这些知识在整个计算广告产品体系中的作用和位置,我们在书中有相应的介绍(微信号:Comp_Ad)。

CSDN:您的这本书既有商业逻辑,也深入到广告技术和算法,总体还是偏向技术,能否介绍您写这本书的初衷是什么?打算写给哪些人阅读?他们能从中获得什么?

刘鹏:关于本书的初衷,我已经写在书的后勒口上了。既然您提到,我就附在这里:

用计算的力量改变世界是每一个程序员的梦想,而本书的主题正是用计算将数据和流量变成财富。这样的后向变现使得许多对用户有价值、但直接利润微薄的信息产品,在互联网时代找到了爆发式成长的机会。从这个角度来看,我们希望本书能够成为一本启示录,帮助每一个互联网人真正理解后向变现对于互联网生产力的巨大解放,真正理解数据资产的巨大价值。 对于已经开启商业化进程的企业,洞悉广告市场复杂的交易结构和产品特点,并选择合理高效的产品方案和技术架构,是商业化必须面对的第一步。从这个意义上说,我们还希望本书成为一本操作指南,辅助您的商业化团队更顺利地认知和践行技术驱动的营销与变现。 由于需要综合用到计算机科学、经济学、心理学等多学科的知识,并需要相当的工业实践基础,因此计算广告的人才相当稀缺。从这个目的出发,本书还希望成为一本特殊的教科书,帮助那些具备扎实基础知识的同学们形成从问题出发的思考方法和分析能力,迅速成长为工业界的中流砥柱。

CSDN:这本书是您和您的“学生”合作的,能否谈谈两位作者是如何分工的?

刘鹏:王超是我以前的同事,他说是我的学生不过是一句谦辞,大家不要当真。书的主体框架是由我搭建,王超负责其中一些章节的写作,并且主要负责了产品案例和算法示例代码的部分。书的主体内容是我写为主的,这样讲不是为了争功,而是希望大家发现问题和发生不满时,应该把我当成主要责任人。

CSDN:您在微博中还提到这本书成书经过不少波折,能否分享一下,写这本书的困难,是因为时间的平衡、技术实验的挑战还是别的原因?

刘鹏:最大的一个困难,就是我们确实意识到自己的能力有限,说句形象的话,有点拿不动。实际上这本书的起意已经过去了两年多,中间一直对自己能否完成一本基本靠谱的领域指南信心不足,再加上这两年在线广告市场本身的突飞猛进,我们一直试图将最新的内容综合呈现在大家面前,所以前前后后花了很多时间。

另外,在书的出版过程中,由于我个人的经验缺乏,可能也走了一些的弯路。例如,因为公式的原因,我一直坚持用Latex排版(实际上,明确表示不能用Latex排版的出版社,我一开始是无法接受的),但是国内的排版公司对Latex熟悉程度比我想象的差得多,这个过程就耽误了不少时间。现在回过头来看,是不是可能采用其他的排版工具(例如InDesign)呢?我还不知道,但是确实应该研究一下,做到兼听则明。在这里要特别感谢本书的责任编辑、人邮社的杨海玲老师,在书的编辑、排版过程中付出的巨大心血和耐心。(最后顺便吐个槽,用Word排版是我绝对无法接受的,那样的话宁可不出。珍爱生命,远离Word是我的人生原则。)

CSDN:您认为目前计算广告现在还有哪些需要解决的问题?能否分享您下一步的研究计划?

刘鹏:这个问题太大了,谈到本领域需要解决的问题,一般都是商业公司在PR宣传中提到,并进而引出他们自己的产品。我没有这个目的,因此只好说,对于计算广告而言,其实现在不是要谈论有哪些需要解决的问题,而是还远远没有成熟,因此这个领域的变化实在是太快了。我们还是一起“stay hungry,stay foolish”,跟上业界的发展节奏,在实践中发现和解决问题。

要说明一点,我不是一个学术研究者,只是一个工业实践者,所以也谈不到什么研究计划。如果说希望真正的学术界如何参与到这个领域当中来,我希望大家能真正放下论文和冗长繁复的引用链条,先黑手黑脚地深入到工业界的实际问题中,了解真正的学术痛点和实施约束在哪里。说句大言不惭的话,不妨从本书开始,做个入门性的了解。

CSDN:作为一位技术管理者,您有余力著书,对工作时间和业余时间的安排有哪些经验可以分享?

刘鹏:我可以直言不讳地表达我的观点:对于大多数技术人员来说,家庭应该被放在比工作更重要的位置上。这倒不是号召大家不要加班,抗议血汗老板,而是希望大家真正能用心去感受渐渐老去的父母对你的关怀,咿呀学语的孩子对你的期盼。对于我来说,工作上获得的,无论是金钱、名誉还是其他,支持我的唯一动力就是将它们与我的家人分享,让他们过上舒适的生活,并且满意于我的努力与现状。

再从技术管理的角度来说,我同样认为,加班虽然不可避免,并且在互联网快速迭代的常态下是一项重要的武器,但是常态化的加班,实际上对生产力的贡献可以忽略不计。更加严重的是,部分中层甚至高层管理者,由于自恃于常态化加班的公司文化,形成了盲目上线、乱枪打鸟的决策风格,这甚至会使加班带来了负生产力。

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-08-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

说好的小米平衡车呢,它怎么变成了9号机器人?

CES2016展会上,Intel 联合小米投资的NineBot以及之前被NineBot收购的赛格威(Segway),推出了一个可以变成机器人的平衡车Hoverb...

49680
来自专栏AI科技评论

阿里巴巴司罗畅谈自然语言智能技术,两平台四应用助力商业落地

在感知智能、认知智能和创造智能之下,我们一定要解决「更好地理解知识,更好地分析语义」的工作,这就是自然语言处理所肩负的重要技术使命。

14640
来自专栏DT数据侠

从迪士尼到谷歌,他用推荐算法玩儿转数据科学 | 数据科学50人·鲁颖

鲁颖,曾任美国迪士尼集团首席数据科学家,他领导开发了迪士尼的用户个性化推荐系统,在个性化推荐算法领域有着丰富经历。现任谷歌高级数据科学家,领导 Google P...

9100
来自专栏钱塘大数据

【职业规划】大数据培训完一般可以做哪些工作?

这个时代是大数据时代,也是大数据人才稀缺的时代。由于中国人才缺口比较大,大数据也迅速成为行业和市场的热点,更多的企业无论是对人才的招聘还是在培训都成了刚需,这也...

37340
来自专栏罗超频道

智能互联网时代来临,最先爆发的AI应用会是语音吗?

移动互联网之后智能互联网时代已然来临。不过,究竟什么是人工智能?AlphaGo战胜人类棋手除了可以作为谈资之外其实与大多数人没关系,用人工智能技术调度外卖配送员...

31140
来自专栏Rainbond开源「容器云平台」

2017年塑造云计算的6大趋势(附云计算福利小视频)

16340
来自专栏PPV课数据科学社区

(完整版)2015年度大数据发展10大预测

《中国大数据技术与产业发展报告(2014年)》针对2015年度大数据发展做了十大预测,他们分别是: 趋势一、结合智能计算的大数据分析成为热点 大数据与神经计算、...

34880
来自专栏程序你好

人工智能将改变商业决策

近年来,人工智能(AI)开始起步,并在科技行业取得重大进展。从挑选人们想去的餐厅开始,Siri、谷歌Assistant、微软Cortana、亚马逊Alexa等人...

23520
来自专栏量子位

Google推出量子云计算,让科学家远程使用他们的量子计算机

陈桦 编译自 Bloomberg 量子位 报道 | 公众号 QbitAI ? 过去多年,谷歌投入了大量时间和资金,专注于当代科技行业最远大的理想之一:开发可实际...

41560
来自专栏ThoughtWorks

重新思考创新服务|洞见

创新最有意思的地方,在于它本身其实并没有多大意思,它来自于平凡的想法,需要付诸极大的勇气与毅力来坚持,甚至在这一过程中还需承受莫大的痛苦。 当对于「创新」的理解...

27560

扫码关注云+社区

领取腾讯云代金券