此版本更新了 Zipline,使其与 Python >= 3.7 以及当前版本的 Pandas、scikit-learn 等相关的 PyData 库兼容。
目前,金融市场总是变幻莫测,充满了不确定因素,是一个有许多投资风险的市场。这与其本身的市场规律和偶然性有关,金融危机、国家政策以及自然灾难等都会影响到金融市场,均会影响投资的收益情况。所以投资者总是希望能够找到应对的方法来减少投资的风险而增加收益。随着老百姓对合理的财富分配理论有着迫切的需求,学会优化投资理财,做到理性投资,是当前投资者最关心的问题。
本文介绍了马尔可夫决策过程,首先给出了马尔可夫决策过程的定义形式,其核心是在时序上的各种状态下如何选择最优决策得到最大回报的决策序列,通过贝尔曼方程得到累积回报函数;然后介绍两种基本的求解最优决策的方法,值迭代和策略迭代,同时分析了两种方法的适用场景;最后回过头来介绍了马尔科夫决策过程中的参数估计问题:求解-即在该状态下采取该决策到底下一状态的概率。
某天,我的一个朋友告诉我说,实现经济自由的关键是股票投资。虽然这是市场繁荣时期的真理,但如今业余交易股票仍然是一个有吸引力的选择。由于在线交易平台的便利性,涌现了许多自主价值投资者或家庭主妇交易员。甚至还有一些成功的故事和广告吹嘘有“快速致富计划”学习如何投资回报率高达 40% 甚至更高的股票。投资已成为当今职场人士的福音。
编译:watermelon、西西 作者:Thomas Wiecki 1 前言 在评估交易算法时,我们通常可以使用样本外的数据,以及真实交易数据去进行评测。评测策略最大的问题是,它有可能是过度拟合的,在过去的数据上表现很好,但在样本外或者未来的真实行情数据中表现一般。今天,公众号编辑部编译了这篇来自Q-blog的文章,也加进了我们自己的一些见解和对文章专业知识的解释,来告诉大家使用贝叶斯估计预测未来可能的回报。 2 预测模型可以得知什么 建模计算总会带来一些风险,如估计不确定性,模型错误指定等错误。 根
强化学习的背景在之前的文章中已经进行了简单介绍,今天主要和大家分享MDP马尔科夫决策过程的相关内容。MDP可谓是其他强化学习的祖师爷,其他方法都是在祖师爷的基础上开枝散叶的,因此要学习强化学习就要学习MDP。
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 术语 概率分布函数(probability distribution function) 一个简单投机(lottery)(行动 )在结果 上的概率分布记做 累积分布函数(cumulative distribution function) 一个简单投机(lottery)行动 ,在结果区间 上的累积分布函数:
来源:DeepHub IMBA本文共1000字,建议阅读5分钟本文为你演示一些不常见,但是却非常有用的 Pandas 函数。 创建一个示例 DataFrame 。 import numpy as npimport pandas as pddf = pd.DataFrame({ "date": pd.date_range(start="2021-11-20", periods=100, freq="D"), "class": ["A","B","C","D"] * 25, "amount": np.
我们创建有一个 3 列 100 行的 DataFrame。date 列包含 100 个连续日期,class 列包含 4 个以对象数据类型存储的不同值,amount 列包含 10 到 100 之间的随机整数。
反事实遗憾算法是一种自我演绎的AI模型。本质是两个AI代理人互相对抗,从头开始学习游戏。事实上在多数情况下,这是一个代理人进行自我对抗,所以它的学习速度会翻倍(重点注意,尽管它本身是和自己玩,但实际上它并没有足够聪明到站在对手的位置理解它上一步的行为。) 与许多最近在AI研究中的重大突破(如AlphaGo)不同,CFR不依赖于神经网络计算概率或特定举措的价值。取代通过自我对局数百万甚至上亿的的方法,它从总结每个操作对特定位置加以考虑的遗憾总量着手。 这个算法令人兴奋的是,随着游戏的进行它将越来越接近游戏的最
For 循环,老铁们在编程中经常用到的一个基本结构,特别是在处理列表、字典这类数据结构时。但是,这东西真的是个双刃剑。虽然看起来挺直白,一用就上手,但是,有时候用多了,问题也跟着来了。
获取数据(使用alpha_vantage库,读取ALPHA VANTAGE股票数据):
在前一篇文章中,我们学习了马尔可夫决策和强化学习框架的一些主要组成部分。在本文中,我们将建立在这一理论上,学习价值函数和贝尔曼方程。 回报和返还(return) 正如前面所讨论的,强化学习agent
上一次分享了十个问题认识MDP,强化学习的目的是要找到一个策略π,使得累积回报的期望最大。这次和大家分享如何在MDP下做决策以及如何得到各个状态对应不同动作下的v值。如果想详细学习的可前往“参考”中的链接。
读书笔记: 博弈论导论 - 02 - 引入不确定性和时间 前言 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。 术语 概率分布函数(probability distribution function) 一个简单投机(lottery)(行动\(a \in A\))在结果 $ X = { x_1, x_2, \cdots, x_n }$上的概率分布记做 \[ p = (p(x_1|a), p(x_2|a), \cdots, p(x_n|a)
本章我们通过简单线性回归模型预测黄金的价格,我们将会从数据读入、数据预处理、数据集划分、模型建立、模型效果验证等方面展开。
第一个维度表示每个时间点采样不同数目的数据(可认为是每个x对应多个不同y值) 第二个维度表示不同的时间点(可认为是x轴对应的x值)
选自arXiv 作者:Zhongwen Xu、Hado van Hasselt、David Silver 机器之心编译 参与:Pedro、路 近日,来自 DeepMind 的研究者 David Silver 等人发布论文,提出一种基于梯度的元学习算法,可以在线调整元参数,使得回报既能适应具体问题,又能随着时间动态调整以适应不断变化的学习环境。 强化学习(RL)的核心目标是优化智能体的回报(累积奖励)。一般通过预测和控制相结合的方法来实现这一目标。预测的子任务是估计价值函数,即在任何给定状态下的预期回报。理
本文介绍的是Pandas数据初探索。当我们生成或者导入了数据之后,通过数据的探索工作能够快速了解和认识数据基本信息,比如数据中字段的类型、索引、最值、缺失值等,可以让我们对数据的全貌有一个初步了解。
大数据文摘作品,转载要求见文末 编译 | 徐宇文,蒋晔、范玥灿 卞峥,yawei xia 技术早已成为金融业的一项资产:金融交易的高速、高频与超大数据体量结合,促使金融机构在一年一年不断地加深对技术的关注,在今天,技术已经切实成为了金融界的一项主导能力。 在金融界最受欢迎的编程语言中,你会看到R和Python,与C++,C#和Java这些语言并列。在本教程中,你将开始学习如何在金融场景下运用Python。本教程涵盖以下这些方面: 基础知识:对于金融入门阶段的读者,你将会首先学到股票和交易策略,什么是时间序列
偏度能够反应分布的对称情况,右偏(也叫正偏),在图像上表现为数据右边脱了一个长长的尾巴,这时大多数值分布在左侧,有一小部分值分布在右侧。
统计学是一门研究数据收集、分析和解释的学科,它在数据分析中起着重要的作用。Python作为一种功能强大的编程语言,在数据分析领域拥有广泛的应用。本文将介绍Python数据分析中的重要统计学概念,帮助您更好地理解和应用统计学知识。
数据透视表(Pivot Table)是一种交互式的表,可以进行某些计算,如求和与计数等。所进行的计算与数据跟数据透视表中的排列有关。
毫无疑问,2022年对各个市场来说都是艰难的一年。投资者不得不与通胀和熊市作斗争,而传统的策略已被证明严重不足。纳斯达克(NASDAQ)和高收益债券,这些昔日的宠儿,如今已失宠,鲜有例外。美国国债是最常见的对冲股市波动的工具,但它遭遇了至少70年来最严重的下跌(而且还远不止如此):
在迅速变化的金融领域中,数据分析和解释的能力至关重要。本文探讨了Python在金融数据分析中的应用,包括使用Pandas、NumPy和Matplotlib等Python库,它们能够处理股票市场数据、展示趋势并构建交易策略。无论你是经验丰富的金融分析师还是初入投资领域者,这些见解和技巧都将增强你的分析技能,拓宽对金融市场动态的理解,并帮助你在股票市场做出明智的决策。
https://baike.baidu.com/item/%E5%A4%8F%E6%99%AE%E6%AF%94%E7%8E%87
我一直觉得强化学习是走向强人工智能的一个必经过程,现有的许多问答系统中也时常会出现强化学习的身影。本文使用策略网络玩强化学习入门的平衡杆游戏。
场景:假设你要从大连去沈阳,然而你并不知道该怎么走,此时你手里有一张假地图(或者干脆就是一张白纸),其次还有个很重要的高科技,就是你每走一步,都能清晰的知道你离目的地的距离(假设你走的是直线,或者是开飞机的,无视障碍物),但是恶心的是起了大雾,你除了能在假地图上记录当前位置和外界的反馈以外啥也干不了。最终目的:把真·地图画出来
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。
近日,LSTM 的发明人、著名深度学习专家 Jürgen Schmidhuber 发表的一篇技术报告引起机器学习社区关注,论文题为“颠倒强化学习:不要预测奖励——把它们映射到行为上”。
Expressive Modeling Is Insufficient for Offline RL: A Tractable Inference Perspective https://arxiv.org/abs/2311.00094
推荐系统中有一个经典的问题就是 EE (exploit-explore)问题,EE 问题有时也叫多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB),简单来说,EE 问题解决的是选择问题。
交易日历代表单个市场交易所的时间信息。时间信息由两部分组成:时段和开/闭市时间。这由 Zipline 的TradingCalendar类表示,并作为所有新的TradingCalendar类的父类。
最近身边有个朋友,因为经受不住年薪30W+的诱惑,立志转行成为一名程序员。在自学编程一个月以后,假装自己是学生哥,信心满满地和应届毕业生一起参加了校招。然而,进行了十几次面试,统统折戟沉沙。
原文首发:https://maoli.blog.csdn.net/article/details/90415391
上一节我们介绍了策略迭代和价值迭代两种方式来解决MDP下的决策问题,但是这两个方法都是需要模型已知的,即需要知道S,A,P,R,γ。但是现实生活中还有一种常见情况,即我们无法知道转移概率P,我们可以知道智能体可以执行哪些动作,因为这是我们设置的,可以知道他会经历哪些状态,也可以从环境的反馈中得到回报值,但是由于环境的复杂性而导致我们无法对环境建模,从而无法得到P。这时可以采用免模型的方法,本节以简单易懂的方式介绍蒙特卡洛方法。
在这一系列文章中,我通过在每个 Python 绘图库中制作相同的多条形绘图,来研究不同 Python 绘图库的特性。这次我重点介绍的是 Bokeh(读作 “BOE-kay”)。
本篇主要介绍一个基础的特征选择工具feature-selector,feature-selector是由Feature Labs的一名数据科学家williamkoehrsen写的特征选择库。feature-selector主要对以下类型的特征进行选择:
SARSA算法的全称是State Action Reward State Action,属于时序差分学习算法的一种,其综合了动态规划算法和蒙特卡洛算法,比仅仅使用蒙特卡洛方法速度要快很多。当时序差分学习算法每次更新的动作数为最大步数时,就等价于蒙特卡洛方法。
“流数据”是连续生成的数据,通常由某些外部源(如远程网站,测量设备或模拟器)生成。这种数据在金融时间序列,Web服务器日志,科学应用程序和许多其他情况下很常见。我们已经了解了如何在[实时数据](06-Live _Data.ipynb)用户指南中显示可调用的任何数据输出,我们还看到了如何使用HoloViews流系统在用户指南中推送事件部分[响应事件](11-响应_到Events.ipynb)和[自定义交互](12-Custom Interactivity.ipynb)。
Q学习(Q-learning)算法是一种与模型无关的强化学习算法,以马尔科夫决策过程(Markov Decision Processes, MDPs)为理论基础。
个体和环境 Agent & Environment 个体指的是强化学习里的智能体Agent,也就是算法里对应的游戏玩家、环境个体,个体实时对环境有一个观测评估,个体可以根据算法策略输出一个对环境的动作行为Action,并从环境得到一个反馈的奖励信号。 环境指的是强化学习里的外部环境Environment,可以接收个体的动作Action并更新环境信息,针对个体的动作给予个体一个奖励信号Reward ,使得个体可以得到下一个对于环境的观测状态Observation 。 个体和环境通过不断循环交互,最终可以得到一个最优的策略,使得个体对于不同的环境观测执行不同的动作行为可以得到尽可能多的累积奖励。
作者 | Joshua Greaves 编译 | 刘畅,林椿眄 本文是强化学习名作——“Reinforcement Learning: an Introduction”一书中最为重要的内容,旨在介绍学习强化学习最基础的概念及其原理,让读者能够尽快的实现最新模型。毕竟,对任何机器学习实践者来说,RL(强化学习,即Reinforcement Learning)都是一种十分有用的工具,特别是在AlphaGo的盛名之下。 第一部分,我们将具体了解了MDPs (马尔可夫决策过程)以及强化学习框架的主要组成部分;第二部
An introduction to Reinforcement Learning
需求背景:现有一列按照某规则排序后的产品,想进行打包进行组合售卖。要求按顺序进行价格累积,当价格累积超过2000后,需要从下一个产品重新开始打包。
中衡量交易策略的表现。并将开发一个简单的动量交易策略,它将使用四种资产类别:债券、股票和房地产。这些资产类别的相关性很低,这使得它们成为了极佳的风险平衡选择。
本章介绍OpenAI 2017发表在NIPS 上的一篇文章,《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》。主要是将AC算法进行了一系列改进,使其能够适用于传统RL算法无法处理的复杂多智能体场景。
选自joshgreaves 机器之心编译 强化学习(RL)是关于序列决策的一种工具,它可以用来解决科学研究、工程文理等学科的一系列问题,它也是围棋程序 AlphaGo 的重要组成部分。本文旨在分享 85 页强化学习课本中最重要的内容,我们从最基础的马尔科夫决策过程开始一步步构建形式化的强化学习框架,然后再详细探讨贝尔曼方程以打好强化学习的基础。当然,如果你想更全面地了解这一主题,建议阅读 Richard Sutton 和 Andrew Barto 的著作《Reinforcement Learning: An
领取专属 10元无门槛券
手把手带您无忧上云