【BDTC 2015】推荐系统分论坛:百度、微博、京东推荐系统架构和实现

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。

12日上午的推荐系统分论坛,百度基础架构部高级架构师沈国龙、FreeWheel技术副总裁李旸、新浪微博算法技术总监姜贵彬、京东数字营销大数据高级总监万昊和猎聘网首席数据官单艺分享了机器学习和推荐算法在搜索、广告、社交、电商和招聘等不同领域的应用。

百度沈国龙:BML百度大规模机器学习云平台实践

百度基础架构部高级架构师沈国龙分享了题为《BML百度大规模机器学习云平台实践》的演讲。

他提到大数据的处理流程包括六个模块:数据、手机、存储、变形、分析、业务场景。并且,他分享了百度大数据处理基础架构,主要讲解了百度大规模机器学习算法框架ELF(Essential Learning Framework)和百度机器学习云BML(Baidu Machine Learning)。ELF框架在设计上汲取了常见计算框架Hadoop、Spark、MPI的精华,拥有和Hadoop一样简单的编程模式,比Spark更快的性能,以及比MPI更易用的接口,并且将计算过程进行托管,提供了包括多轮数据迭代处理、异步更新、并行通信等功能,让用户不在考虑底层的实现细节,专注算法自身逻辑,还拥有性能一流的参数服务器(Parameter Server),可用于存储万亿规模参数。其特点总结为易用、高效。

他通过广告点击率建模应用介绍了百度机器学习。点击率建模的应用算法包括逻辑回归和GBDT + FFM,数据是各种用户点击日志。百度机器学习逻辑回归算法的特点是:支持数百T样本数据训练,千亿特征,千亿样本,支持连续值/离散值;支持L-BFGS和SGD两种算法求解。他提到把不含隐层的浅层学习模型转换为含多个隐层的深度学习模型的原因是:浅层需要观察特征,对特征工程压力很大,深度学习模型从根本上解决了特征的问题。

他总结了机器学习成功的要素:一、数据。包括数据收集和多套数据的打通,清晰、明确、“洁净”的数据源、Online & Offline数据的结合;二、系统。快速、低成本的实现,支持规模快速扩张的高效算法库,AB Test和模型迭代机制;三、评价标准。覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动、人工使用体验等指标,对整体系统的影响。

最后,他介绍了广告推荐系统的流程。首先把数据日志、移动端日志、CRM、Marketing System与互联网数据进行打通。然后,提供各种数据工具进行分析、统计、挖掘。接下来,训练模型并发布预测服务。然后,通过智能Retargeting挽留老用户、发掘新用户,进行推广。

FreeWheel李旸:基于大数据的新兴视频广告测量实践

FreeWheel技术副总裁李旸分享了题为《FreeWheel基于大数据的新兴视频广告测量实践》的演讲。他主要从以下三个方面进行了分享:新兴视频广告测量方式、用户性别年龄预测、广告完成率预测。

他提到广告测量的挑战仍然是广告的实际效果很难被测量,而且市场里还没有建立起行之有效的被广告主和媒体都接受的广告测量方式。目前大多数都采用基于用户反馈进行测量。新兴视频广告测量方式包括三种:数字收视率、广告完成、可见曝光。数字收视率测量流程为:一、创建广告订单;二、注册该广告订单;三、播放视频;四、请求广告;五、发送beacon;六、返回前日投放结果。该方法面临的挑战是投放时预测用户年龄性别,年龄预测和性别预测的方法是完全类似的,一个直观的思路是把它想象成有监督分类问题,把前面的观看历史和静态信息当成一个特征,就可以知道用户的性别到底是什么,但问题是缺少有效的样本标注手段。

分析用户年龄性别的一个比较有用的特征是之前视频和网页的观看历史。基于名称和简短描述,提取两个特征,即Genre和Topic。对每个Genre训练一个SVM模型,获得特征为2-gram词表在正负样本中出现的次数的比值。利用LDA提取了100个Topic。Topic提取特征可以作为前面Genre模型很好的补充,把这两个结合作为一个网页或者视频特征的描述。

有了训练和特征,剩下就是做分类。采用不同的模型,发现计算用户的性别概率的准确率有时候比较低,这种现象有两方面原因:一方面是训练本身就不是百分之百准确;当有些用户观看率比较少的时候用这个模型计算也不是太准确。解决这个问题的办法是使用相似用户平滑进行优化,具体使用SVD分解,把用户在两千个网页上的浏览行为,映射到200维的特征空间,根据向量的距离,计算新用户和之前哪些新用户比较相似,提取比较相似的用户,取一个平均值,作为一部分的预测结果,再把这个结果和通过模型算出来的结果做加权平均,用这种方法得出最终平滑预测的结果。

广告完成率预测。广告完成率,是给定广告、用户、当前请求环境的条件下去预测广告完成事件可能出现的一个条件概率,它实际上是典型的回归问题,回归特征主要来自于三个维度,广告和用户。

新浪微博姜贵彬:大数据驱动下的微博社会化推荐

新浪微博算法技术总监姜贵彬分享了题为《大数据驱动下的微博社会化推荐》的演讲。他主要从以下几个方面进行了分享:推荐的角色与定位、大数据与推荐的关系、数据驱动下的微博推荐、商业推荐。

推荐的角色与定位。他认为微博的核心目标是提升关系构建量、内容传播速度和商业化营收。推荐手段包括大数据分析、兴趣协同、行为触发。推荐扮演了加速器和调控器的角色。加速器是指加速优质信息传播、加速高价值关系构建、加速用户成长。调控器是指优化用户关系网络结构、调控和引爆信息的定向传播。

大数据与推荐的关系。他认为数据量大是大数据的前提条件,这个爆炸式的数据增长,是深度和广度的增加,是数据多样性的提升。大数据的意义在于可以通过这些数据获取到原来数据中无法获取到的东西,对一些事情的认知会更加的全面、立体。相比于一般数据,他认为大数据效果随采样率降低而显著降低,大数据分析要求较高的采样率,推荐是典型的大数据问题,大数据是推荐系统的基石。

数据驱动下的微博推荐。他认为社会化的概念是去中心化、非对等性、社会化分工。他提到从信息层面微博数据特点是碎片化、UGC与媒体共存、简短、传播速度快、丰富。微博由点到面的关系网络结构,使微博具有非常强的信息传播能力。这个特点是把双刃剑,带来优势也会引发问题:传播速度过快,会让旧的信息很快被淹没掉,不管它是高价值的,还是低价值的,从而怎么样让优质信息沉淀下来,获得更多的曝光机会,是推荐需要去考虑和解决的问题。他认为产品设计应该顺应用户行为、自然流畅,先从最有效的推荐场景入手。关于推荐系统的架构,他提到应用层将场景特征传入在线服务,进行流量切分、算法策略选择和排序。该系统分为初选和终选。在算法实践上,他主要介绍了算法体系、协同过滤、相关性推荐、预估模型、时序混合、模型融合。

商业推荐。算法优化目标是在一层曝光量的前提下获得更多的实际曝光量和互动数。

京东万昊:大数据技术在京东广告中的应用

京东数字营销大数据高级总监万昊分享了题为《大数据技术在京东广告中的应用》的演讲。他主要分享了三个方面:大数据不仅仅在于数据大,更重要的在于对数据的洞察;广告中最重要的大数据应用在于定向;京东的大数据的三赢。

数据洞察是指数据里挖掘出的能够应用于产品、提升效果的规律。定向是指广告商希望哪些用户看到自己的广告,但更重要的是猜测自己产品的用户应该具有哪些特征,最直接的是找到潜在用户。搜索词定向是定向搜索了相应关键词的用户。购物行为定向那些看过或者买过特定商品、品牌、店铺、类目的用户。

京东广告大数据的三赢是指用户买到了自己想要的商品、广告商推广了自己的商品、京东获得商品销售收入和广告收入。定向代表广告商想要这个用户,而用户未必想要这个广告。京东广告算法要实现的是保证插入广告之后,用户购买商品总额上涨,具体的做法是通过大规模机器学习来预估是否满足用户需求。如何做到三赢?一方面,一个成功的大数据系统,必然是一个over-fitting到相应产品的系统。over-fitting到相应产品,京东电商这样的产品,优化目标和产品是绑定的,先搞清楚优化目标产品是什么,才能够把系统搭建的靠谱,有些产品确实不太好找数值化特别适合机器学习的优化。京东广告的架构、算法就与百度凤巢广告有很大区别,京东广告根据京东的特定产品场景对用户行为进行建模,使用京东独有的数据over-fitting。另一方面,一个成功的大数据系统,必然是一个能够快速迭代的系统。京东广告既有搜索又有推荐,因为统一的架构对于快速迭代非常重要,并且持续集成,能够自动化测试、部署、上线。广告系统检索流程包括三个阶段:一、召回,即购物行为定向和搜索定向。二、排序,包括质量因子计算和质量因子乘以出价排序。三、计费,即GSP二价计费。

猎聘网单艺:运用增强学习算法提升推荐效果

猎聘网首席数据官单艺分享了题为《运用增强学习算法提升推荐效果》的演讲。

他分享了猎聘网人才匹配基本的概念和框架。做很多小的匹配模型和策略,从不同维度把人和企业的职位进行匹配。这里边也用到了很多行为方面的数据,比如说人的浏览和投递行为,企业HR下载,还有表示满意不满意的行为,都把它用到匹配的策略里面去,这些匹配策略以后生成不同的结果,经过融合和过滤,分别推送给个人用户和企业。

职业社交同道系统,即猎聘同道,比较像社交推荐系统。策略是在行业和职能上面,设计他的社交图谱和行为,包括同学关系,如果你有完整履历,这些都可以把它用来作为信号,产生出候选,经过经典模式融合,再过滤,最后得到推荐结果。在做推荐工作的时候经常会发现,其实每天都面对很多新事物,对新的事物一无所知的时候就要去探索。这个问题就像你去一个赌场,有很多老虎机,你去试哪台机器可以赢钱,你希望收益最大化,A/B测试和这个有点像。这个问题是增强学习里面比较简单的问题。增强学习提供了一套自适应智能系统的理论框架。老虎机算法通过留很小的百分比去试验,观察return,选择目前最好的策略。Thomspon算法利用贝叶斯理论,根据当前后验进行采样,选取收益最大的。探测的时候可以知道它后验的分布,更新自己的模型参数,每次根据当前后验参数得出来的分布进行采样,有可能即使是比较差的策略,也可以保证一定程度的探索。

新用户冷启动问题,新用户来了不知道他的兴趣在哪里,这个时候可以用Thompson sampling分类,根据这些算法分类用户,收集用户反馈,他是点击看了还是收藏了,有了这些数据之后你就可以对类别的兴趣进行打分,你可以用UCB,也可以用Thompson sampling,这也是比较常用的方法。

增强学习的其他应用,没有context的和有context的比较复杂的增强学习,在实际当中遇到的情况有非常多的用途,比如智能控制,智能机器人,调度优化,互联网广告,在线游戏等等。

MAB模型能够帮助UI优化、推荐策略试验、用户兴趣探测、内容试验。Contextual MAB模型可以做得更深入、更好。

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2015-12-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

AI、机器学习和深度学习的关系及区别

作者:Rahul Sharma 来源:http://techgenix.com/author/rsharma/ 编译:FintechProbe 人工智能不再是科...

2478
来自专栏AI科技评论

业界 | Facebook 图像识别平台 Lumos 是什么?

大多数人懒得给照片加标签。如果你属于这一类(大概率事件),那么你一定知道搜索某张照片有多辛苦。 但这很有可能即将成为过去。 本周,Facebook 披露了其机器...

3916
来自专栏AI科技大本营的专栏

程序员如何开启机器学习之路?我也遇到过这个问题

学习机器学习,但无从下手怎么办?尝试过各种学习方法,为什么依然是个门外汉?为什么传统的学习机器学习的途径收效甚慢? 作为一名对机器学习心有向往的程序员,我该以什...

3075
来自专栏机器之心

专访 | 从专家系统到大数据知识工程,「千人计划」专家吴信东如何为数据冠以知识

吴信东教授是国家「千人计划」特聘专家、长江学者、IEEE & AAAS Fellow,他早期关注于专家系统,也就是知识工程的应用实践。而随着机器学习与大数据的流...

1283
来自专栏人工智能快报

神经网络被麻省理工新方法“欺骗”

美国麻省理工学院的科研人员提出了一种新方法,其构建的3D物体可有效“欺骗”当前人工智能所依赖的神经网络。 以“神经网络”形式出现的人工智能(AI)被越来越多地用...

3397
来自专栏PaddlePaddle

知名深度学习框架的典型应用案例一览

TensorFlow在谷歌系的产品中应用非常多,比如Gmail, Google Play Recommendation, Search, Translate, ...

1405
来自专栏镁客网

技术 | 看Deepmind机器人尬舞,边玩边学人工智能

1973
来自专栏数据科学与人工智能

【机器学习】机器学习正在五个方面重塑我们的世界

机器学习的技术越来越成熟,与大数据结合在一起为我们的世界带来了巨大的变化。对此,大数据专家Bernard Marr总结了机器学习在听、说、读、写、看五个方面如何...

2408
来自专栏AI科技评论

深度 | Facebook AML实验室负责人: AI技术落地的N种方法

(Facebook AML实验室负责人 Joaquin Candela) 编者按:在Facebook,有两个实验室领导着AI发展方向,一个是Yann LeCun...

47015
来自专栏人工智能快报

剑桥科学家用两百万段视频教会人工智能预测未来

人工智能系统可以预测场景如何展开,也可以设想不久的将来。 对于静止画面,深度学习算法生成的微视频可以预测接下来可能发生的场景。例如,如果展示的是一幅火车站的场景...

3727

扫码关注云+社区

领取腾讯云代金券