专栏首页杨熹的专栏强化学习第一课:像学自行车一样的强化学习

强化学习第一课:像学自行车一样的强化学习

机器学习算法主要可以分为监督式,非监督式,强化学习三类。

在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。

例如我们有一个横幅广告预测点击率的问题:

横幅的特征可以是,主题,想要推广的内容,挂在哪个页面,会浏览这个页面的用户的特征。 想要预测的变量只有一个,就是用户是否会点击这个横幅广告。

这时我们可能想要用一些监督式学习的模型,但是有个问题是我们并没有那么多数据,没办法知道每个横幅每个页面每个用户的行为。

虽然在没有数据的情况下,也可以想办法用监督式学习。

例如,可以随机发一些广告,随机的给一些人,随机的选择位置,来生成一些数据, 然后记录用户是否点击进去,不过大多数情况下用户是不点击的。 这样有了这些数据后,就可以应用一些算法,进行预测。

但是有个问题,就算你用这些数据进行预测了,训练了模型了,但是并不敢直接用这个模型得出的决策, 就算用户第一次点击了你发送的广告,但是如果太频繁地发送同样的广告,就会失去用户的信任, 所以我们可能想要尝试一些对用户有益的内容,想要让用户更开心,这样用户可以停留更久,你也可以收获更多的信任, 这种情况下会有很多变化,需要不断的调整。如果继续用监督式方法,可能会产生非常糟糕的结果。

例如,圣诞节前一周开始训练我们的点击预测模型,由于是圣诞节,每个人都会看关于圣诞节礼物的内容,我们的模型也会展示很多相关的广告,那么很可能在这段时间里,有一些相关物品获得了非常多的点击,获得了很多利润,但圣诞节结束后,模型并没有办法重新调整,于是继续展示圣诞节的横幅广告,就没有机会展示其他的广告内容。 所以不要百分百相信你的模型,可以留一部分数据是随机地展示 top100 的横幅或一些其他的广告。

但这种解决方案,就像是在用胶带去填补,虽然有足够的胶带的话肯定能解决问题, 但是会有更多的隐藏问题出现,

这时就可以用强化学习, 一句话概括就是通过反复试验来学习。

就像你学习自行车,不会去通过看一本书来学习,不会去看 1000 个样本,看每种场景是如何骑车的,然后就会了。

而是只需要有个自行车,想要学习如何骑就去骑,虽然可能会失败几次,可能会受伤,但是通过受伤,最终就学会了,并且骑得越来越好。

学习资料: Practical Reinforcement Learning

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 强化学习第3课

    病人去看医生,医生就是这个代理,医生观察一些症状,并给出一个治疗方案,然后会得到一个反馈,病人是否在治疗之后感觉好一些了等等。

    杨熹
  • 强化学习第2课:强化学习,监督式学习,非监督式学习的区别

    在监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。

    杨熹
  • 强化学习是什么

    参考 2013年伦敦的一家人工智能公司 Deep Mind 发表了一篇论文 “Playing Atari with Deep Reinforcement Lea...

    杨熹
  • 强化学习第3课

    病人去看医生,医生就是这个代理,医生观察一些症状,并给出一个治疗方案,然后会得到一个反馈,病人是否在治疗之后感觉好一些了等等。

    杨熹
  • 阿里盖坤:用深度学习打造真正的智能化广告系统

    文章原创首发于微信公众号「 TGO 鲲鹏会」,原文地址:阿里盖坤:用深度学习打造真正的智能化广告系统

    TGO鲲鹏会
  • 数据分析基础

    第一种:自己公司研发在产品中注入代码统计,并搭建起相应的后台查询。 第二种:第三方统计工具,如友盟、百度移动、魔方、App Annie、talking dat...

    城市中的游牧民族
  • 简单介绍数据采集中的数据埋点

    每个人都会走路跑步,但是并不是人人都能成为专业的运动员那么出色。产品经理就是一种这样的职业,我们都可以站在产品的角度思考问题,但我们并不是都能够成为一名出色的产...

    木东居士
  • 解决哪些产品运营问题|数据化运营01

    2019年,将针对数据化运营进行一系列的文章总结,期待能够形成一套科学、体系化的方法和指引,敬请大家期待。而过程中,随着思考和实践的深入,相关的方法论会有优化,...

    用户1756920
  • 美团推荐算法实践

    推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。

    bear_fish
  • 美团技术团队博客:推荐算法实践

    前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深...

    美团技术团队

扫码关注云+社区

领取腾讯云代金券