首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#函数

Python深度强化学习对冲策略:衍生品投资组合套期保值Black-Scholes、Heston模型分析

拓端

本文提出了一个在存在交易成本、市场冲击、流动性约束或风险限制等市场摩擦的情况下,使用现代深度强化学习方法对衍生品投资组合进行套期保值的框架。我们讨论了标准强化学...

200

python中Copula在多元联合分布建模可视化2实例合集|附数据代码

拓端

Copula是一个用于描述多个随机变量之间相关性的函数,它将这些变量的联合分布与其边缘分布连接起来。Copula函数由Sklar定理所定义,该定理指出,对于N个...

100

非周期信号的傅里叶变换.清爽版

云深无际

非周期信号的傅里叶变换,这个在使用中更加的普遍,之前写过,好像有些过于拖沓了,这次快来复盘一下新的推导过程。

000

抽样函数(Sampling Function)

云深无际

抽样函数,也称为采样函数或Sinc函数,用于描述连续时间信号在离散时间点上的采样过程。

300

频谱泄漏:频谱分析中的“拦路虎”

云深无际

简单来说,就是原本应该集中在一个频率点上的能量,由于上述原因“泄漏”到了其他频率点上,导致频谱变得模糊不清。

200

向量微积分一文速通:从曲线积分到曲面积分

云深无际

文章很短也很长,两类积分,在曲线和曲面上,四种类型,分别在标量和矢量情况下。三个定理,格林,高斯,斯托克斯。以及完整的微积分基本定理,在低维和高维之间互相连通。...

000

关于信号与系统里微分方程初值条件选择

云深无际

最近这个信号与系统学的也是略有小成,赶紧复习一下,以及我也挺鄙视现在的教科书,全是我不爱看的(小装一手B)。{这篇文章写了太久了,根本没有办法再拾起来把后面的补...

000

2024-11-30:质数的最大距离。用go语言,给定一个整数数组 nums,请找出两个(可以是相同的)质数在该数组中的下标之间

福大大架构师每日一题

北京动视元科技有限公司 | 研发工程师 (已认证)

2024-11-30:质数的最大距离。用go语言,给定一个整数数组 nums,请找出两个(可以是相同的)质数在该数组中的下标之间的最大距离。

200

awk从0学习,这一篇就够了

ICT系统集成阿祥

格式符由 % 字符开始,后跟一个或多个字符,用于指定输出的格式。常用的格式说明符包括:

500

【RL Base】强化学习核心算法:深度Q网络(DQN)算法

不去幼儿园

深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with De...

700

【Reinforcement Learning】强化学习下的多级反馈队列(MFQ)算法

不去幼儿园

在强化学习(Reinforcement Learning, RL)相关背景下,多级反馈队列(Multilevel Feedback Queue,...

800

【Hierarchical RL】半马尔可夫决策过程 (SMDP) -->分层强化学习

不去幼儿园

半马尔可夫决策过程,Semi-Markov Decision Processes (SMDP) 是一种用于分层强化学习的模型,适用于那些包含不规则时间步或长...

900

【Hierarchical RL】分层深度Q网络(Hierarchical-DQN)算法

不去幼儿园

Hierarchical-DQN (Hierarchical Deep Q-Network) 是一种分层强化学习算法,专门设计用于解决复杂的任务,通过将任务...

600

【RL Latest Tech】分层强化学习:MAXQ分解算法

不去幼儿园

MAXQ分解是一种用于分层强化学习(Hierarchical Reinforcement Learning, HRL)的算法,由Thomas G. Diett...

1800

【RL Latest Tech】分层强化学习(Hierarchical RL)

不去幼儿园

分层强化学习(Hierarchical Reinforcement Learning,HRL)是一类旨在通过引入多层次结构来提高强化学习算法效率的方法。其核心...

700

【RL Latest Tech】离线强化学习(Offline RL)

不去幼儿园

CQL 是一种保守的 Q 学习方法。其主要思想是通过在学习过程中对 Q 函数进行额外的保守性约束,避免估计值过于乐观。具体而言,CQL 在训练过程中会对策略选择...

1600

【RL Latest Tech】元强化学习(Meta Reinforcement Learning)

不去幼儿园

元强化学习是一种提升智能体适应新任务能力的技术,它让智能体不仅能学习完成当前的任务,还能在面对新的任务或环境时更快地学会新的策略。与传统的强化学习不同,元强化...

1600

【MADRL】面向角色的多智能体强化学习(ROMA)算法

不去幼儿园

多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)在许多应用场景中面临巨大挑战,如智能体之间的...

1300

【MADRL】多智能体信任域策略优化(MA-TRPO)算法

不去幼儿园

信任域策略优化(Trust Region Policy Optimization, TRPO)是一种单智能体强化学习算法,通过限制策略更新的范围来保证稳定的...

1000

【MARL】A* 算法在多智能体强化学习中的应用

不去幼儿园

A*算法是一种启发式搜索算法,广泛应用于路径规划和状态空间搜索问题。其核心思想是在搜索过程中结合代价函数和启发式函数,从而实现较高效的最短路径求解。在多智能体...

1600
领券