选自TowardsDataScience 作者:William Koehrsen 机器之心编译 参与:Geek AI、刘晓坤 本文对比了频率线性回归和贝叶斯线性回归两种方法,并对后者进行了详细的介绍,分析了贝叶斯线性回归的优点和直观特征。 我认为贝叶斯学派和频率学派之间的纷争是「可远观而不可亵玩」的学术争论之一。与其热衷于站队,我认为同时学习这两种统计推断方法并且将它们应用到恰当的场景之下会更加富有成效。出于这种考虑,最近我努力学习和应用贝叶斯推断方法,补充学校课程所学的频率统计方法。 贝叶斯线性模型是我最
强化学习已经席卷了整个 AI 世界。从 AlphaGo 到 AlphaStar,由强化学习提供动力的 AI 智能体已经战胜了越来越多由人类主导的传统活动。通过在某一环境中对智能体行为进行优化以实现最大奖励是强化学习的关键,但是绝大多数强化学习方法需要对环境有完整的了解,而现实中这是难以实现的,基于样本的学习方法(例如蒙特卡洛)则可以解决这一痛点。本文以 21 点游戏为例,对蒙特卡洛方法进行了在强化学习中的应用进行了介绍,AI 科技评论编译如下。
在贝叶斯方法中,马尔可夫链蒙特卡罗方法尤其神秘 ( 点击文末“阅读原文”获取完整代码数据******** )。
可使用蒙特卡洛法进行模拟,所谓“蒙特卡罗法”(Monte Carlo Methods,MC),是通过计算机模拟,从总体抽取大量随机样本的计算方法。
选自int8 Blog 机器之心编译 我们都知道 DeepMind 的围棋程序 AlphaGo,以及它超越人类的强大能力,也经常会听到「蒙特卡洛树搜索」这个概念。事实上,蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术,除游戏之外,它还在很多现实世界的应用中有着广阔前景。本文中,我们会以 AlphaGo 为例子,对这一方法进行详细介绍。 长久以来,学术世界一直认为计算机在围棋这个复杂游戏上达到超越人类的水平是几乎无法实现的。它被视为人工智能的「圣杯」——一个我们原本希望在未来十年挑战的遥远里程碑。
最近我们被客户要求撰写关于COPULA模型蒙特卡洛的研究报告,包括一些图形和统计输出。
【导读】应用贝叶斯推理的重点领域之一是贝叶斯线性模型。我们首先简要回顾一下频率主义学派的线性回归方法,接着介绍贝叶斯推断,并试着应用于简单的数据集。 作者 | William Koehrsen 编译 | 专知 参与 | Yingying, Xiaowen Introduction to Bayesian Linear Regression 频率主义线性回归概述 线性回归的频率主义观点可能你已经学过了:该模型假定因变量(y)是权重乘以一组自变量(x)的线性组合。完整的公式还包含一个误差项以解释随机采样噪声。
之前总结的大部分模型都是基于正态性的假设,但实际上,正态性假设并不非常符合金融时间序列的特征。如果从其他分布假设出发,对于单个资产来说,已经有t-garch等模型可以用于波动率建模,相对容易,但对于资产组合来说,多元正态具有边际分布及线性组合也符合多元正态分布的良好性质,但多元t分布,多元渐进t分布等就不具有这么好的性质,因此需要一些新的模型来解决这一问题,本文总结一种可以用于资产组合分布建模的方法:Copula模型,通过Copula模型描述出组合的分布后,就可以利用之前蒙特卡洛的方法估计组合VaR。
最近股票、基金市场一片哀嚎,今天从技术的角度来聊聊如何基于编程+统计学来分析股票市场,仅供学习!
作者:陈之炎 本文约2000字,建议阅读10分钟本文介绍了蒙特卡洛算法。 蒙特卡洛算法(Monte Carlo algorithm)是一种基于随机采样的计算方法,其基本思想是通过生成随机样本,利用统计学原理来估计数学问题的解。它最初是由美国洛斯阿拉莫斯国家实验室的科学家斯坦尼斯拉夫·乌拉姆(Stanislaw Ulam)和尤里·维加(Nicholas Metropolis)在20世纪40年代初开发的,用于模拟核反应堆中的中子传输问题。 蒙特卡洛算法的核心原理是利用随机数和概率统计方法来模拟问题,通过大量随机
👆点击“博文视点Broadview”,获取更多书讯 📷 强化学习,除了可以用于单个强化学习智能体和环境的相互作用,也可以用于两个或者多个智能体在某个强化学习环境下的博弈。 关于这种类型的算法,最有名的应该是蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)。 随着AlphaGo和AlphaZero算法在围棋、国际象棋和将棋等棋类领域的广泛应用,并且在这些领域内均取得了相比传统的Alpha-Beta 剪枝算法更加优异的性能,蒙特卡洛树搜索算法作为这些智能体使用的算法也被越来越多的人研究
蒙特卡洛方法(Monte Carlo method)是20世纪40年代中期提出的一种以概率统计为指导的重要数值计算方法。其名字来源于摩洛哥的赌城蒙特卡洛,象征着概率。蒙特卡洛方法在金融工程学,宏观经济学,计算物理学等领域应用广泛。
2018 区块链技术及应用峰会(BTA)·中国 倒计时 3 天 2018,想要follow最火的区块链技术?你还差一场严谨纯粹的技术交流会——2018区块链技术及应用峰会(BTA)·中国将于2018年3月30-31日登陆北京喜来登长城饭店。追求专业性?你要的这里全都有:当超强嘉宾阵容遇上业界同好的脑洞大联欢,1+1=无限可能,目前门票预购火热进行中。 活动详情: http://dwz.cn/7FI1Ch 编译 | reason_W 出品 | 人工智能头条(公众号ID:AI_Thinker) 长久以来,计算
状态、动作、状态转移概率和奖励,分别对应$(S,A,P,R)$,后面有可能会加上折扣因子构成五元组。
围棋一直被视为人工智能最难破解的游戏。就在今天,《Nature》杂志以封面论文的形式,介绍了 Google DeepMind 开发的人工智能程序 AlphaGo,它击败了欧洲围棋冠军樊麾,并将在 3 月和世界冠军李世乭对战!Google 特地为此准备了 100 万美元奖金。 从国际象棋的经验看,1997 年人工智能第一次打败人类后,2006 年成为了人类在国际象棋的绝唱,自此之后人类没有战胜过最顶尖的人工智能国际象棋选手。在 AlphaGo 打败了欧洲围棋冠军后,世界冠军李世乭和 AlphaGo 的对弈,
该模型假定一个变量的未来的值线性地取决于其过去的值,以及过去(随机)影响的值。ARIMAX模型是ARIMA模型的一个扩展版本。它还包括其他独立(预测)变量。该模型也被称为向量ARIMA或动态回归模型。
在已知的马尔可夫决策过程(MDP)中,无论是策略迭代(policy iteration)还是价值迭代(value iteration),都假定已知环境(Environment)的动态和奖励(dynamics and reward),然而在许多的真实世界的问题中,MDP模型或者是未知的,或者是已知的但计算太复杂。本文讲述无模型的预测与控制Model-free Prediction and Control 中的前半部分,无模型的预测 (Model-free Prediction)通过与环境的交互迭代来求解问题。
MCMC 是Markov Chain Monte Carlo 的简称,但在传统模拟中有一个很重要的假设是样本是独立的(independent samples),这一点在贝叶斯统计尤其是高纬度的模型中很难做到。所以MCMC的目的就是运用蒙特卡洛模拟出一个马可链(Markov chain)。
问题一:我们如何用蒙特卡洛方法求积分?问题二:如何近似求一个随机变量的数学期望?问题三:估计的误差是多少?问题四:如何从理论上对蒙特卡洛估计做分析?结论
在强化学习问题中,我们可以用马尔可夫决策过程(MDP)和相关算法找出最优行动值函数 q∗(s,a)和v∗(s),它通过策略迭代和值迭代找出最佳策略。
现在,分位数回归已被确立为重要的计量经济学工具。与均值回归(OLS)不同,目标不是给定x的均值,而是给定x的一些分位数 ( 点击文末“阅读原文”获取完整代码数据******** )。
【磐创AI导读】:本篇文章是深度强化学习专栏的第三篇,讲了第四节无模型的强化学习方法,希望对大家有所帮助。查看上篇关于本专栏的介绍:深度强化学习(DRL)专栏开篇。
2、问题:头部效应很重,热门item有大量的正样本,而冷物品有大量负样本,难以均衡化;
之前几篇总结的方法都是对于向前一日VaR的建模,都以是以VaR=波动率乘以分布函数逆函数为基础。但如果要计算向前k日的VaR,如果还使用上述公式,波动率和分布函数应该换成k日滚动窗口的,好像还没见过这样的Garch模型。
作者 | Ben Shaver 翻译 | 刘畅 编辑 | Donna 大多数时候,贝叶斯统计在结果在最好的情况下是魔法,在最糟糕时是一种完全主观的废话。在用到贝叶斯方法的理论体系中,马尔可夫链蒙特卡洛方法尤其神秘。 这篇文章将介绍马尔可夫链蒙特卡洛方法,极其背后的基本数学推理。 首先,什么是马尔可夫链蒙特卡洛(MCMC)方法呢? 最简短的回答就是: “MCMC就是一种通过在概率空间中随机采样来近似感兴趣参数的后验分布的方法” 在这篇文章中,我不用任何数学知识就可以解释上面这个简短的答案。 贝叶斯理论体系基本
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 大多数时候,贝叶斯统计在结果在最好的情况下是魔法,在最糟糕时是一种完全主观的废话。在用到贝叶斯方法的理论体系中,马尔可夫链蒙特卡洛方法尤其神秘。 这篇文章将介绍 马尔可夫链蒙特卡洛方法 ,极其背后的基本数学推理。 >>>> 首先,什么是 马尔可夫链蒙特卡洛(MCMC) 方法呢? 最简短的回答就是: “MCMC就是一种通过在概率空间中随机采样来近似感兴趣参数的后验分布的方法” 在这篇文章中,我不用任何数学知识就可以解释上面这个简短的答案。
机器之心原创 作者:李泽南 AAAI 2018 大会已于 2 月 2 日在美国新奥尔良开幕。在此之前,大会获奖论文的结果已经放出,阿尔伯塔大学提交的论文《Memory-Augmented Monte Carlo Tree Search》获得了 AAAI 2018 大会的杰出论文奖。该论文作者分别为博士生 Chenjun Xiao、梅劲骋与教授 Martin Müller。 Chenjun Xiao 硕士与博士阶段均就读于阿尔伯塔大学,师从 Martin Müller 教授。 梅劲骋本科毕业于华南理工大学,研
以下概括都是基于我个人的理解,可能有误,欢迎交流:piperliu@qq.com。
最近,copula 在仿真模型中变得流行起来。Copulas 是描述变量之间依赖关系的函数,并提供了一种创建分布以对相关多元数据建模的方法
最近,copula 在仿真模型中变得流行起来。Copulas 是描述变量之间依赖关系的函数,并提供了一种创建分布以对相关多元数据建模的方法 ( 点击文末“阅读原文”获取完整代码数据******** ) 。
左右两侧会同时变化使得训练过程不稳定,从而增大回归的难度的问题。目标网络选择将右边部分,即
蒙特卡洛方法(Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。
感兴趣的参数只是用来抽象我们感兴趣的现象的一些数字。通常我们会使用统计的方法来估计这些参数。例如,如果我们想了解成年人的身高,那么我们需要的参数可能就是以英寸为单位的平均身高。
;其次我们要想一下我们下了某一步之后局面会怎么变化,对方会怎么下,我们又怎么接着对方的棋往下下,我们把这种思考叫做思考的深度
笔者阅读的是中文书籍,提到的具体公式笔者将给出其所在的英文版本的页码,英文书籍原文见 Sutton 本人官网:http://incompleteideas.net/book/the-book.html。
作者 | DarkScope,蚂蚁金服高级算法工程师,致力于算法技术的创新和实际应用,乐于通过博客的方式对技术进行分享和探讨。
来源:专知本文为论文介绍,建议阅读5分钟本周重要论文包括:CVPR 2022各种获奖论文。 强化学习(Reinforcement learning, RL)是一种学习复杂决策策略的通用而强大的解决方案,为游戏和机器人等多个领域的近期成功提供了关键的基础。然而,许多最先进的算法需要大量的数据,计算成本很高,需要大量的数据才能成功。虽然这在某些情况下是可能的,例如在可用数据稀少的社会科学和医疗健康应用程序中,这自然会昂贵或不可行的。随着人们对将RL应用到更广泛的领域的兴趣的激增,对其算法设计中涉及的数据的使用
风险价值 (VaR) 是一种统计数据,用于量化公司、投资组合在特定时间范围内可能发生的财务损失程度
前面两章都假设我们已知MDP的分布p(s'r|s,a)(model),但有时这一点难以做到,或者说这种Markov假设可能是不合理的,那么我们只能从真实/模拟环境中去获取这些知识。蒙特卡洛方法只需要经验知识,即:来自线上或者模拟环境交互过程的样本序列(包括状态序列、动作序列、奖励序列)。“蒙特卡洛”这个词被广泛用在利用大量随机元素作估计的地方。在这里我们用它来表示基于完全return平均值的方法。
从Engle在1982发表自回归条件异方差(ARCH)模型的论文以来,金融时间序列数据的波动性就倍受关注。同时,近几年又出现了研究股票市场的波动传递性
Nature 封面论文:Mastering the game of Go with deep neural networks and tree search(通过深度神经网络和树搜索,学会围棋游戏) AlphaGo 给围棋带来了新方法,它背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络),其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,
蒙特卡洛方法利用随机数从概率分布P(x)中生成样本,并从该分布中评估期望值,该期望值通常很复杂,不能用精确方法评估。在贝叶斯推理中,P(x)通常是定义在一组随机变量上的联合后验分布。然而,从这个分布中获得独立样本并不容易,这取决于取样空间的维度。因此,我们需要借助更复杂的蒙特卡洛方法来帮助简化这个问题;例如,重要性抽样、拒绝抽样、吉布斯抽样和Metropolis Hastings抽样。这些方法通常涉及从建议密度Q(x)中取样,以代替P(x)。
这篇文章的研究内容为:具有规划能力的智能体(agents with planning capabilities)。
之前我们讨论过马尔可夫决策过程(MDP,参阅 https://goo.gl/wVotRL)以及寻找最优的动作-价值函数
如何使用Python通过蒙特卡洛模拟自动计算风险值(VaR)来管理投资组合或股票的金融风险。
点击上方“专知”关注获取更多AI知识! 【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习,为此,专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记,在专知发布推荐给大家!(关注
(2)另外,我们想把不确定性也表示出来,希望尽可能快地得到奖励,而不是在未来的某个时刻得到奖励。
加州大学洛杉矶分校计算机科学专业的 Ray Zhang 最近开始在自己的博客上连载介绍强化学习的文章,这些介绍文章主要基于 Richard S. Sutton 和 Andrew G. Barto 合著的《Reinforcement Learning: an Introduction》,并添加了一些示例说明。该系列文章现已介绍了赌博机问题、马尔可夫决策过程和蒙特卡洛方法。本文是对其中蒙特卡洛方法文章的编译。更多相关文章和最新更新可访问:https://oneraynyday.github.io
领取专属 10元无门槛券
手把手带您无忧上云