首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

蒙特卡洛 VS 自举法 | 在投资组合应用(附代码)

这两种方法都用于给定资产或资产组合生成模拟价格路径,但它们使用方法略有不同,对于以前没有遇到过的人来说,这两种方法之间可能显得有些微妙。...因此,我们可以从我们所有投资组合成分历史回报率序列中生成多个随机抽样(替换),然后相应地对它们进行加权,最终将加权回报相加并将相应输出记录我们自举法(Bootstrapped) “投资组合回报...每个单独资产创建模拟资产回报DataFrame,并将它们存储在列表中。 ? 使用列表推导来遍历资产回报DataFrames列表,并将值除以资产数量以表示同等加权投资组合。 ?...让我们创建一个漂亮小相关热力图来看看。 ? ? 从上述数值来看,我们可以看到所有资产在某种程度上都是正相关,有些值更大,重要所有的值都是正。...方法2逻辑相同——尽管我们这次我们个人资产提供了Bootstrapped回报,然后形成了投资组合,但再次仔细选择了Bootstrapped初始回报,以便一次抽取所有回报都来自同一天每个资产。

3.4K20

如何用R语言在机器学习中建立集成模型?

另外,为了向您提供有关集合建模实践经验,我们将使用R对hackathon问题进行集成。 1.什么是集成? 通常,集成是一种组合两种或多种类似或不同类型算法技术,称为基础学习者。...这样做是为了建立一个更加健壮系统,其中包含了所有基础学习者预测。可以理解多个交易者之间会议室会议,以决定股票价格是否会上涨。...2.集合类型 在进一步详细介绍之前,您应该了解一些基本概念是: 平均:它被定义 在回归问题情况下或在预测分类问题概率时从模型中获取预测平均值。 ?...多数投票:它被 定义 在预测分类问题结果同时,从多个模型预测中以最大投票/推荐进行预测。 ? 加权平均值:在此,不同权重应用于来自多个模型预测,然后取平均值 。 ?...现在,让我们尝试用这些模型形成集合不同方法,如我们所讨论: 平均:在此,我们将平均三个模型预测。由于预测是“Y”或“N”,因此平均值对于此二进制分类没有多大意义。

1.7K30

向量自回归简介

单因素 如果我们有一个变量x,我们可以试图在瞬间将变量Ĵ 值表示前一时间点线性组合变量值i 。 此外,我们增加一个常数c来更好地拟合数据。...例如,计算变量平均值,然后将残差表示相对于平均值百分比。 不过,相对残差方便取决于具体情况。如果我们使用正面和负面的价值观,那么相对残差可能是不连贯。...例如,如果我们有关于温度数据,其中平均值0正值和负值就会产生非常大相对残差。 最后,我们必须考虑如何使用多个变量来理解残差。如果我们得到相对残差,我们可以将不同变量残差相加。...出于这个原因,我们可以考虑不使用所有可用信息创建模型可能性,只要其中一部分。通过比较预测值与实际值,我们可以使用其余数据来评估我们模型在预测方面的准确度。...找到最佳模型过程可以分为以下两个模块。 变量分类 正如我前面提到那样,确定哪些变量可以用可用数据进行预测是非常重要,以避免创建不一致模型。由于组合数目是指数,我们不能检查所有可能性。

3.3K10

针对SAS用户:Python数据分析库pandas

我们将说明一些有用NumPy对象来作为说明pandas方式。 对于数据分析任务,我们经常需要将不同数据类型组合在一起。...像SAS一样,DataFrames有不同方法来创建。可以通过加载其它Python对象创建DataFrames。...对比上面单元格中Python程序,使用SAS计算数组元素平均值如下。SAS排除缺失值,并且利用剩余数组元素来计算平均值。 ? 缺失值识别 回到DataFrame,我们需要分析所有缺失值。...PROC FREQ与自变量_CHARACTER_和_NUMERIC_一起使用,每个变量类型生成频率列表。 由于每个变量产生单独输出,因此仅显示SAS输出一部分。...正如你可以从上面的单元格中示例看到,.fillna()函数应用于所有的DataFrame单元格。我们可能不希望将df["col2"]中缺失值值替换为零,因为它们是字符串。

12.1K20

在Python和R中使用交叉验证方法提高模型性能

让我们了解一下,如何通过以下步骤完成此操作: 从训练集中删除因变量 train.drop(['target'], axis = 1, inplace = True) 创建一个新变量,该变量对于训练集中每一行是...= 0) 使用上面新创建变量,拟合分类模型并预测要进入测试集中每一行概率 # Xgboost 参数 clf = xgb.XGBClassifier(**xgb_params, seed =...时间序列交叉验证折叠以正向连接方式创建 假设我们有一个时间序列,用于在n 年内消费者对产品年度需求 。验证被创建: ?...则可以创建基于函数或函数组合自定义交叉验证技术。 如何测量模型偏差方差? 经过k倍交叉验证后,我们将获得 k个 不同模型估计误差(e1,e2…..ek)。在理想情况下,这些误差值应总计零。...为了得到模型偏差,我们获取所有误差平均值。降低平均值,使模型更好。 同样,为了计算模型方差,我们将所有误差作为标准差。标准偏差值低表明我们模型在不同训练数据子集下变化不大。

1.6K10

机器学习系列--数据预处理

使用属性中心度量(均值或中位数)填充缺失值 使用与给定元组属同一类所有样本属性均值或中位数 使用最可能值填充缺失值:可以用回归、使用贝叶斯形式化方法基于推理工具或决策树归纳确定。...3δ原则 当数据服从正态分布: 根据正态分布定义可知,距离平均值3δ之外概率 P(|x-μ|>3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值样本是不存在...等宽分箱:每个”桶”区间宽度相同 等深分箱:每个”桶”样本个数相同 用户自定义区间分箱 数据平滑 按平均值平滑:对同一箱中数据求平均值,用平均值代替该箱子中所有数据。...这样,原数据投影到一个小空间上,导致维归约。与属性子集选择通过保留原属性集一个子集来减少属性集大小不同,PCA通过创建一个替换、较小变量集“组合“属性基本要素。...在(简单)线性回归中,对数据建模,使之拟合到一条直线,例如,可以用以下公式,将随机变量y(称做因变量)表示另一随机变量x(称自变量)线性函数,y=wx+b.

38110

特征工程(四): 类别特征

可能在计算上很昂贵代表如此多不同类别。 如果一个类别(例如,单词)出现多个数据点(文档)中时间,然后我们可以将它表示一个计数并表示所有的类别通过他们统计数字。...特征不同线性组合可以做出同样预测,所以我们需要跳过额外条件来理解特征对预测影响。 dummy编码 单热编码问题是它允许k个自由度,其中变量本身只需要k-1。...此外,失踪数据可以编码全零矢量,输出应该是整体目标变量平均值。 虚拟编码和效果编码不是多余。 他们产生独特和可解释模型。...当类别数量变得非常多时,所有三种编码技术都会失效大。 需要不同策略来处理非常大分类变量。 处理大量类别特征 互联网上自动数据收集可以生成大量分类变量。...“在这里,X是二进制变量”是Alice是当前用户“,而Y是变量”点击广告与否“。 该计算使用所谓双向列联表(基本上,四个数字对应于X和Y四种可能组合)。 表5-7. 偶然发生用户点击事件 ?

3.2K20

Python配对交易策略统计套利量化交易分析股票市场|附代码数据

系列 A 将生成具有固定参数平稳时间序列,而 B 将随时间变化。我们将创建一个函数,概率密度函数创建 z 分数。高斯分布概率密度: 是均值和  是标准差。标准差平方, ,是方差。...作为一个例子,让我们通过我们非平稳 .np.meanplt.figureplt.plotplt.hlines计算平均值将显示所有数据点平均值,但对未来状态任何预测都没有用。...因此,A 系列很可能是静止。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳。协整金融数量之间相关性是出了名不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。...我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势最理想方式。为此,我们需要使用 z 分数。z 分数是数据点与平均值标准差数。更重要是,高于或低于总体平均值标准差数量来自原始分数。...设置规则我们将使用我们创建比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量 . 如果比率正,则表示“买入”,否则表示卖出。

34440

Python配对交易策略统计套利量化交易分析股票市场|附代码数据

系列 A 将生成具有固定参数平稳时间序列,而 B 将随时间变化。我们将创建一个函数,概率密度函数创建 z 分数。高斯分布概率密度: 是均值和  是标准差。标准差平方, ,是方差。...作为一个例子,让我们通过我们非平稳 .np.meanplt.figureplt.plotplt.hlines计算平均值将显示所有数据点平均值,但对未来状态任何预测都没有用。...因此,A 系列很可能是静止。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳。协整金融数量之间相关性是出了名不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。...我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势最理想方式。为此,我们需要使用 z 分数。z 分数是数据点与平均值标准差数。更重要是,高于或低于总体平均值标准差数量来自原始分数。...设置规则我们将使用我们创建比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量 . 如果比率正,则表示“买入”,否则表示卖出。

96401

Python配对交易策略统计套利量化交易分析股票市场|附代码数据

系列 A 将生成具有固定参数平稳时间序列,而 B 将随时间变化。我们将创建一个函数,概率密度函数创建 z 分数。高斯分布概率密度: 是均值和  是标准差。标准差平方, ,是方差。...作为一个例子,让我们通过我们非平稳 .np.meanplt.figureplt.plotplt.hlines计算平均值将显示所有数据点平均值,但对未来状态任何预测都没有用。...因此,A 系列很可能是静止。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳。协整金融数量之间相关性是出了名不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。...我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势最理想方式。为此,我们需要使用 z 分数。z 分数是数据点与平均值标准差数。更重要是,高于或低于总体平均值标准差数量来自原始分数。...设置规则我们将使用我们创建比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量 . 如果比率正,则表示“买入”,否则表示卖出。

98200

Python配对交易策略统计套利量化交易分析股票市场|附代码数据

系列 A 将生成具有固定参数平稳时间序列,而 B 将随时间变化。我们将创建一个函数,概率密度函数创建 z 分数。高斯分布概率密度: 是均值和  是标准差。标准差平方, ,是方差。...作为一个例子,让我们通过我们非平稳 .np.meanplt.figureplt.plotplt.hlines计算平均值将显示所有数据点平均值,但对未来状态任何预测都没有用。...因此,A 系列很可能是静止。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳。协整金融数量之间相关性是出了名不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。...我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势最理想方式。为此,我们需要使用 z 分数。z 分数是数据点与平均值标准差数。更重要是,高于或低于总体平均值标准差数量来自原始分数。...设置规则我们将使用我们创建比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量 . 如果比率正,则表示“买入”,否则表示卖出。

1.4K20

我用PythonSeaborn库,绘制了15个超好看图表!

本例中每个数据点表示单个点,而水平线表示平均值。...在上图中,每个数据点表示一个点,并且这些点排列使得它们在分类轴上不会相互重叠。 在这里,所有萼片宽度数据点以不同方式代表每个物种一个点。 12....特征图 特征图可视化了数据集中变量之间两两关系。 创建了一个坐标轴网格,将所有数值数据点将在彼此之间创建一个图,在x轴上具有单列,y轴上具有单行。...FacetGrid Seaborn中FacetGrid函数将数据集一个或多个分类变量作为输入,然后创建一个图表网格,每种类别变量组合都有一个图表。...联合分布图 联合分布图将两个不同类型图表组合在一个表中,展示两个变量之间关系(二元关系)。

48830

Seaborn15种可视化图表详解

我们x轴选择一个分类列,y轴(花瓣长度)选择一个数值列,我们看到它创建了一个每个分类列取平均值图。...它创建了一个坐标轴网格,这样所有数值数据点将在彼此之间创建一个图,在x轴上具有单列,y轴上具有单行。对角线图是单变量分布图,它绘制了每列数据边际分布。...函数将数据集和一个或多个分类变量作为输入,并创建一个图表网格,每种类别变量组合都有一个图表。...(data, col="species",height=4,hue='species') g.map(sns.histplot, "petal_length") 14、联合分布图 联合分布图将两个不同组合在一个表示中...它可用于显示分布、比较组或显示不同变量之间关系。

27020

使用Python进行交易策略和投资组合分析

函数将通过时间序列对数回报、感兴趣时间段以及是否允许做空布尔变量布尔变量来返回预期表现。...因为 1 天回顾可能包含许多错误趋势,所以我们尝试不同时间段来查看它们比较情况。这里将循环运行模型 3、5、15、30 和 90 天。...投资组合分析 到目前为止,我们已经用Python创建了一个交易策略。下面我们将度量并绘制常见投资组合特征方便我们进行观察分析。 投资组合分析 首先,我们将导入一些重要库,并观察数据执行情况。...我们不计算每个子时期价格变化百分比,而是计算那段时间自然增长指数。首先创建一个df,其中包含数据中每个股票价格对数回报,然后我们每个对数回报创建一个直方图。...除了SPY与HYG,这四个资产类别的相关性都很低,这对我们投资组合是不利:因为如果拥有高度相关不同资产组,即使你将风险分散在它们之间,从投资组合构建角度来看,收益也会很少。

75431

概率论和统计学中重要分布函数

随机变量在概率空间中遵循不同类型分布,这决定了它们特征并有助于预测。...所以我们定义了一个随机变量X,它在每次掷骰时取这些值。 根据实验不同,随机变量可以取离散值,也可以取连续值。骰子例子是离散随机变量,因为它取一个离散值。...所以通过观察这些曲线,我们可以很容易地说,蓝色,红色和黄色平均值是0,而绿色平均值是-2。 方差(σ²):决定曲线宽度和高度。方差只不过是标准差平方。请注意,图中给出了所有四条曲线σ²值。...注:大括号中6和4是6C4,它是6个球中4个全垒打的可能组合。 伯努利分布 在二项分布中,我们有一个特殊例子叫做伯努利分布,其中n=1,这意味着在这个二项实验中只进行了一次试验。...X有总共n个可能值(x1,x2,x3…..xn)。现在取所有X值自然对数,并创建一个新随机变量Y=[Log(x1),Log(x2),Log(x3)…Log(xn)]。

1.6K10

101因子新测评,会有哪些新发现?

不同调仓周期下,组合年均换手率水平不同,因此交易成本设置方式可能会对回测结果产生比较大影响。...此处我们将交易费用分别取单边0.2%、0.15%、0.1%,TOP层组合表现如下(TOP层是指分二十层测试中第一层,下表中所有值均为T个不同回测轨道均值)。...在不同调仓周期下,组合年均换手率水平不同,因此交易成本设置方式可能会对回测结果产生比较大影响。...在不同调仓周期下,组合年均换手率水平不同,因此交易成本设置方式可能会对回测结果产生比较大影响。...,变量X日频价格数据(可能X取法有OPEN、CLOSE、HIGH、LOW、VWAP或将它们进行简单复合计算),变量Y日频交易量数据(下表中Y均为VOLUME),d是函数f(·)一个参数,代表该函数正在计算过去

2.1K30

Python风险价值计算投资组合VaR、期望损失ES(Expected Shortfall)

后者就是所谓市场风险,衡量它最流行方法之一是定义风险价值。风险本身被看作是实际收益和期望收益之间差异,两者可能不同。如果它们相等,投资被认为是无风险。...请注意,期望收益不是投资者认为他们将获得收益,而是反映了所有经济情况下所有可能结果平均值。 风险价值(VaR)告诉你在一个给定时间段内,在预先确定置信水平下,你能损失多少钱。...风险值是一个最先进衡量标准,因为它可以为所有类型资产进行计算,并考虑到多样化因素。然而,风险值并不是一个最大损失数字,所以分析师可能会遇到大于风险值损失。  ...多资产投资组合VaR 对于  多资产类别投资组合: #将数据集扩展到5种不同资产,将它们组合成一个具有替代风险投资组合。...例如,对于h=10天收益, ,我们可以从正态分布中计算出99%风险值,如下所示 h = 10. # 10天mu_h = 0.1 # 这是10天内收益率平均值 - 10%。

3.8K20

生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素|附代码数据

我们定义了:数据;预测变量;因变量--表示物种数据列号;树复杂度--我们首先尝试树复杂度5;学习率--我们尝试用0. 01。 运行一个如上所述模型,将输出进度报告,做出图形。...我们在每个交叉验证中计算每个统计量(在确定最佳树数下,根据所有交叉验证中预测偏差平均变化进行计算),然后在此呈现这些基于交叉验证统计量平均值和标准误差。...简化模型 简化会建立了许多模型,所以它可能很慢。...在其中,我们评估了简化lr0.005模型价值,但只测试剔除最多5个变量("n.drop "参数;默认是自动规则一直持续到预测偏差平均变化超过gbm.step中计算原始标准误差)。...现在来计算所有这些结果偏差,然后绘制。

88900
领券