为什么要用深度学习来做个性化推荐 CTR 预估

原创

苏博览

修改于 2017-09-26 10:17:14

3K00

代码可运行

文章被收录于专栏：苏博览的专栏苏博览的专栏

运行总次数：0

代码可运行

深度学习应该这一两年计算机圈子里最热的一个词了。基于深度学习，工程师们在图像，语音，NLP等领域都取得了令人振奋的进展。而深度学习本身也在不断的探索和发展中，其潜力的极限目前还没有被看到。

当然，深度学习也不是万能的，比如有很多问题的特征是易于提取的，我们可以直接使用SVM, 决策树的算法来取得很好的结果。而深度学习并不能提供太多的帮助。还有一些问题，我们并没有足够数量的数据，我们也很难通过深度学习算法来得到可用的模型。此外，有些问题对计算资源和时间的要求比较严苛，在深度学习小型化没有取得突破性进展的时候，它们也不是首选方法。

判断一个项目适不适合上深度学习的正确姿势 ( 图片来源 : 深度学习防骗指南 )

反过来说，虽然目前深度学习在个性化推荐，计算广告领域上还没有很大的突破，但是我认为推荐系统有很大概率会是深度学习的最重要的应用场景之一。理由有以下几个方面：

现在的推荐系统都要面对海量的数据，要提取上万乃至上亿维的特征。而深度学习本身就是一个很好的表示学习的框架，从海量的数据中学习到人类无法提取的特征组合，是其擅长的事情。

( 图片来源 : 深度学习防骗指南 )

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。现有的推荐系统依赖于特征工程的效果。而特征工程建立在不断的深入理解问题和获取额外的数据源上。然而根据数据人能抽象出来的特征总类很有限，新数据源和新特征的获得会越来越难。随着人工特征工程的深入，投入的人力和时间越来越长，得到的新特征对系统的提升却越来越少。这个时候，使用深度学习来做特征表达，在成本上也许是一个更好的选择。

图：IBM Watson系统的精度提升曲线。可以看到一开始的时候结果提升的特别快，后面一点点的提升都要付出很大的努力，

因此我们基于Tensorflow在某个业务上做了DNN的尝试，跑通了整个流程，积累了一些经验。也比原有LR的模型在线上有了20%多的提升。希望这些代码也可以帮助各位同学快速的在自己的业务上实现一套深度模型的框架。

图： DNN在CTR预估的一般框架

一般来说，我们可以先选择一个比较简单的框架来跑通整个流程，然后再慢慢增加模型的复杂度。通常我们可以选用下图的框架，把我们用到的数据分为两类：连续的，和离散的特征。

对于连续的特征，需要做一些归一化；对于离散的特征，则一般要做一个Embedding，把一个离散的特征转成一个N维的向量。这个向量的长度一般来说是和该向量的取值空间成正比的。这个embedding的过程可以用FM来实现。在我们的代码里，是通过Tensorflow自动embedding_column实现的。

所以把用户数据和推荐的物品数据放一起分成两类，然后把embedded之后的离散特征和连续特征组合在一起，作为神经网络的输入，输出就是[0,1] 是否点击。这里面我们就直接调用tensorflow的DNNClassifier。这个网络可以设计层数，每层的大小，dropout, 激活函数，学习率等等。

        opt = tf.train.AdamOptimizer(learning_rate=0.01,
                                    beta1=0.9,
                                    beta2=0.999)            # default 0.001 0.9 0.999 


        m = tf.contrib.learn.DNNClassifier(model_dir=model_dir,
                                           feature_columns=deep_columns,
                                           hidden_units=[1024, 512, 256],
                                           optimizer = opt,
                                           activation_fn=tf.nn.relu,        # default
                                           dropout=0.05 )

所以后面就是一个不断调参的过程，当然这个调参也是有一些技巧。网上有很多，在这里就不一一来说了。