前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习——学习记录1

强化学习——学习记录1

原创
作者头像
升级打怪的菜鸟
修改2024-08-01 11:32:10
620
修改2024-08-01 11:32:10
举报
文章被收录于专栏:强化学习

1 什么是机器学习

机器学习:

计算机系统能够从数据中学习并做出预测或决策。算法是机器学习的核心,通过算法的构建去优化做出的预测和决策。

机器学习有哪些类型呢?

  • 监督学习(Supervised Learning): 数据是有标签,通过有标签的训练数据中学习,包括输入特征和相应的输出标签。常见的任务包括分类和回归。
  • 无监督学习(Unsupervised Learning):在没有标签的数据中尝试找到数据中的结构和模式。常见的任务包括聚类和降维。
  • 半监督学习(Semi-Supervised Learning):使用少量标记数据和大量未标记数据进行学习,介于监督学习和无监督学习之间。
  • 强化学习(Reinforcement Learning):如前所述,智能体通过与环境的交互来学习如何采取行动以最大化累积奖励。后面将继续详细展开学习!
  • 自监督学习(Self-Supervised Learning):一种无监督学习,算法通过预测数据的某些方面来学习,这些方面通常是从数据本身推导出来的。

机器学习就是通过带标签或者不带标签的数据,从数据中分析一定的逻辑与预测一定的结果结论,从而解决生活中遇到的问题。这其中我们需要输入数据,提取数据的特征,然后训练,再用测试集进行测试。测试过于依赖数据还会出现过拟合等情况。

以上是对机器学习的了解。

2什么是强化学习

在通过以上对机器学习的了解,再来了解强化学习。强化学习是机器学习中的一种,机器学习需要通过数据来分析,而强化学习就是将数据这种输入变成环境输入,通过主题与环境的交互情况,来改变学习规则,从而达到学习最终的目的。也就是以下的介绍:

强化学习:

主要关注如何在环境中采取行动以最大化某种累积奖励。强化学习的核心是主体通过与环境的交互来学习最佳策略,即在给定状态下选择最佳动作的规则。

强化学习有哪些常见类型呢?

  • 基于模型(Model-Based):建立一个模型,该模型可以学习环境,并跟随环境的变化而变化。模型的建立就是需要将变化的情况转化为状态变化的概率和函数,然后通过模型的学习达到规划的最优策略。
  • 无模型(Model-Free):算法直接从与环境的交互中学习策略,这个策略的建立的基础不是在立环境模型的基础上进行的。
  • 策略方法(Policy-Based):直接学习或优化策略函数,即从状态到动作的映射。
  • 价值方法(Value-Based):学习价值函数,如状态价值函数或动作价值函数(Q函数),然后使用这些函数来选择最佳动作。
  • 蒙特卡洛方法(Monte Carlo Methods):通过完整的样本轨迹来估计期望回报。
  • 时序差分方法(Temporal Difference, TD):通过估计当前状态的即时回报与未来回报的差异来更新价值函数。

强化学习的具体实际应用呢?

生活中比较常见的有无人驾驶,通过大量的交通数据,让车辆与实际环境交互,通过一定的奖励机制让无人驾驶实现一定的轨道运行。当然现在比较火的就是深度学习,进行计算机视觉检测,图相分类与识别等。

总结

学习机器学习与强化学习的区别,记录!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 什么是机器学习
  • 2什么是强化学习
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档