首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从计算、建模到回测:因子挖掘的最佳实践

快照数据以两种形式存储:(1)各档数据分别存储一列;(2)用 array vector (DolphinDB中一种特殊的向量,用于存储可变长度的二维数组)将所有档位的数据存储一列。...DolphinDB 也支持将实时计算结果推送到消息中间件,与交易程序对接。...在外部消费 ZMQ 消息的程序启动后,DolphinDB 端要启动流计算,并开始对外发布计算结果。以下是 DolphinDB 端的代码。...在本章节中,将会讲述如何在 DolphinDB中 做因子间的相关性分析,以及回归分析。 6.1 因子回测 因子的建模和计算等,一旦从图表上分析出有方向性的结论,就要做成策略。...回归法 在DolphinDB官方发布的机器学习教程中内置了多种线性回归模型,包括普通最小二乘法回归(OLS Regression),脊回归(Ridge Regression),广义线性模型(Generalized

6.2K22

DolphinDB:金融高频因子流批统一计算神器!

这几天,公众号发现了一个超高性能分布式时序数据库神器: DolphinDB DolphinDB海量结构化数据的极速存储、检索、计算与分析提供了一站式解决方案,特别适合金融行业用来处理大规模数据,尤其是...今天的推文大家介绍如何使用DolphinDB发布的响应式状态引擎(Reactive State Engine)高效开发与计算带有状态的高频因子,实现流批统一计算。...解决上述方案在生产环境中的性能问题,很多机构会用C++重新实现研究(历史数据)代码。这样做,需要维护两套代码,开发成本(时间和人力)会极大增加。此外,还要耗费大量精力确保两套系统的结果完全一致。...图中的节点有3种: 1、数据源,price。 2、有状态的算子,a, b, d, e。 3、无状态的算子,c和result。 从数据源节点开始,按照既定的路径,层层推进,得到最后的因子输出。...单线程情况下,测试结果如下: 股票个数 因子个数 耗时(单位:ms) 4000 20 6 1 20 0.07 4000 1 0.8 200 20 0.2 6、多个引擎的流水线处理 DolphinDB内置的流计算引擎包括响应式状态引擎

3.9K00
您找到你想要的搜索结果了吗?
是的
没有找到

新型行情中心:基于实时历史行情的指标计算和仿真系统

下文中将统一称为“行情中心”。...对于一部分性能要求特别高的计算需求,衍生品定价,脚本语言如能支持即时编译(JIT),会是一个很大的优势。...时序模型主要存储行情、订单、委托和指标因子等具有时序特征的大数据;在实际业务中,计算期权面值需要用到合约乘数,又比如对组合需要根据行业分类进行估值、因子、归因和风险计算,这些场景都是典型的关系模型。...: 表8:window join 关联结果 5、流式计算和流批一体 八种流计算引擎 图12:DolphinDB 流计算引擎 DolphinDB 支持多种流计算引擎,包括时间序列引擎、横截面引擎、...3、国内最大的FICC领域信息提供商,用DolphinDB搭建行情数据平台,外部应用提供数据查询和计算服务。

3.2K21

R语言异方差回归模型建模:用误差方差解释异方差

p=10207 ---- 在社会科学中将OLS估计应用于回归模型时,其中的一个假设是同方差,我更喜欢常误差方差。这意味着误差方差没有系统的模式,这意味着该模型在所有预测级别上都同样差。...碰巧,这种治疗方法除了有效之外,还具有均质作用,例如,受试者被洗脑后对结果的改善更好。以下数据集应符合上述方案: 有100名参与者的治疗状态0(对照组),平均值0,标准差1。...但是我们知道方差不是同方差的,因为我们创建了数据,并且残差对拟合值的简单诊断图证实了这一点: 首先,我记录一下重新创建OLS模型: 在此函数中,我结果的平均值创建一个模型,该模型是截距的函数b_int...然后,我绘制结果: par(mfrow = c(1, 1)) OLS和异方差性MLE的治疗效果相似。但是,当nulltrue时,异方差MLE模型的p值表现得更好。...如果nulltrue,则可以期望p值均匀分布。OLS迭代的p值堆叠在高端。 这次,我重复此过程,使治疗组的平均值0.15,因此零效果的null假设为假。  治疗效果再次具有相同的分布。

1.5K10

R语言如何和何时使用glmnet岭回归

p=3373 这里向您展示如何在R中使用glmnet包进行岭回归(使用L2正则化的线性回归),并使用模拟来演示其相对于普通最小二乘回归的优势。...L2正则化是OLS函数的一个小增加,以特定的方式对残差进行加权以使参数更加稳定。结果通常是一种适合训练数据的模型,不如OLS更好,但由于它对数据中的极端变异(例如异常值)较不敏感,所以一般性更好。...以下是使用mtcars数据集的示例: 因为,与OLS回归不同lm(),岭回归涉及调整超参数,lambda,glmnet()不同的lambda值多次运行模型。...我们可以将这个值提取: opt_lambda <- cv_fit$lambda.minopt_lambda #> [1] 3.162278 我们可以通过以下方式提取所有拟合的模型(返回的对象glmnet...根据假设,OLS更适合训练数据,但Ridge回归更好地归纳新的测试数据。此外,当训练观察次数较少时,这些影响更为明显。

5.1K10

深度森林第三弹:周志华组提出可做表征学习的多层梯度提升决策树

Si 等人 [25] 提出了解决该问题的有效方式,可以在实践中将内存降低一个数量级。 ? 4 实验 4.1 合成数据 为了进行完整性检查,研究者在合成数据集上训练两个小的多层 GBDT。 ?...然后研究者用结构(3 - 5 - 3)的 mGBDT 构建了一个自编码器,MSE 为重建损失。 重建输出如图 3b 所示。...每个样本包括一个人的社会背景,种族、性别、工作种类等。这里的任务是预测这个人的年薪是否超过 50K。 ? 图 5:收入数据集的特征可视化。 实验结果见图 6 和表 1。...它的准确率还比单个 GBDT 或多个 GBDT 的简单堆叠更高。...尽管不可微模型梯度提升决策树(gradient boosting decision tree,GBDT)是建模离散或表格数据的主要方法,但是它们很难整合这种表征学习能力。

1.3K40

线性回归的结果解释 I:变量测度单位变换的影响

何在回归分析中纳入常见的函数形式,以及函数形式变化对回归结果的解释有何影响? 本篇文档是对第一个问题的解答,数据处理和分析结果在Stata中完成。...roe为由单个观测值1988、1989和1990三年的平均值计算而得,样本均值约为17.18%(注意:这里没有用十分位数进行表示,0.1718,而是用%表示);同理,由于roe的单位1%,可令roedec...因变量测度单位成倍变化的影响 表2中的模型(1)和模型(2)分别展示了不同收入测量单位下的回归结果,可得样本回归函数(sample regression function)或OLS回归直线...自变量测度单位成倍变化的影响 表3中的模型(1)和模型(2)分别展示了不同经营收益测量单位下的回归结果,可得样本回归函数(sample regression function)或OLS回归直线...上述结果还缺少因变量单位 $1、自变量单位0.01时的回归结果。 为此,表4展示了所有可能的组合。

4K151

何在 Python 中将作为列的一维数组转换为二维数组?

特别是,在处理表格数据或执行需要二维结构的操作时,将 1−D 数组转换为 2−D 数组的能力是一项基本技能。 在本文中,我们将探讨使用 Python 将 1−D 数组转换为 2−D 数组的列的过程。...我们将介绍各种方法,从手动操作到利用强大的库( NumPy)。无论您是初学者还是经验丰富的 Python 程序员,本指南都将为您提供将数据有效地转换为 2-D 数组格式所需的知识和技术。...它可以可视化为网格或表格,其中每个元素都由其行和列索引唯一标识。...为了确保 1−D 数组堆叠列,我们使用 .T 属性来转置生成的 2−D 数组。这会将行与列交换,从而有效地将堆叠数组转换为 2−D 数组的列。...总之,这本综合指南您提供了在 Python 中将 1−D 数组转换为 2-D 数组列的各种技术的深刻理解。

31540

计量笔记 | 异方差

如果解释变量较多,则解释变量的二次项(含交叉项)将更多,在辅助回归中将损失较多样本容量。...异方差的处理 3.1 OLS + 稳健标准误 发现异方差,一种处理方法是,仍进行 OLS 回归(OLS 依然无偏、一致且渐近正态),但使用在异方差情况下也成立的稳健标准误。...保证 ,假设条件方差函数对数形式: 对此方程进行 OLS 回归,可得 的预测值,记为 。 得到拟合值 (一定为正)。...`lnq' 的线性函数进行辅助回归 /* 结果解读:变量lnq在1%水平上显著,但R2仅为0.1309,且常数项不显著 ( p 值 0.26)。...: WLS 回归的结果显示,lnpk 的系数估计值由“-0.22”(OLS 估 计值)改进“-0.09”(其理论值应为正数)。

5.7K20

ML Mastery 博客文章翻译(二)20220116 更新

Keras 中对图像像素归一化、居中和标准化 如何将深度学习用于人脸检测 如何在 Keras 中将 VGGFace2 用于人脸识别 如何在 Keras 中将 Mask RCNN 用于照片中的对象检测...如何在 Keras 中将 YOLOv3 用于对象检测 如何使用 Keras 训练对象检测模型 如何使用测试时间扩充做出更好的预测 在 Keras 中将计算机视觉模型用于迁移学习 如何在卷积神经网络中可视化过滤器和特征图...Python 中使用标准缩放器和最小最大缩放器变换 机器学习中缺失值的统计插补 使用 Sklearn 的表格数据测试时间增强 如何在机器学习中训练测试集 什么是机器学习项目中的数据准备 Machine...R 中开始机器学习(一个周末内获得结果) 如何使用 Caret 包估计 R 中的模型准确率 如何在 R 中入门机器学习算法 如何在 R 中加载机器学习数据 如何将 R 用于机器学习 R 中的线性分类...Weka 处理机器学习数据中的缺失值 如何在 Weka 中运行你的第一个分类器 如何在 Weka 中调整机器学习算法 在 Weka 中更好的预测使用提升、装袋和混合集成 如何在 Weka 中加载 CSV

4.4K30

CSS属性汇总--(6) 定位属性3

把此元素放置在父元素的中部 bottom     把元素的顶端与行中最低的元素的顶端对齐 text-bottom  把元素的底端与父元素字体的底端对齐 length % 下面的例子演示了如何在文本中垂直排列图象... 运行该代码后显示以下结果 ? 13.visibility          visibility 属性规定元素是否可见。...hidden       元素是不可见的 collapse    当在表格元素中使用时,此值可删除一行或一列,但是它不会影响表格的布局。被行或列占据的空间会留给其他内容使用。...14. z-index           z-index 属性设置元素的堆叠顺序。拥有更高堆叠顺序的元素总是会处于堆叠顺序较低的元素的前面。 注释:元素可拥有负的 z-index 属性值。... 结果如下: ?

1.8K20

干货!直观地解释和可视化每个复杂的DataFrame操作

Pivot 透视表将创建一个新的“透视表”,该透视表将数据中的现有列投影新表的元素,包括索引,列和值。初始DataFrame中将成为索引的列,并且这些列显示唯一值,而这两列的组合将显示值。...结果是ID列的值(a,b,c)和值列(B,C)及其对应值的每种组合,以列表格式组织。 可以像在DataFrame df上一样执行Mels操作 : ?...Stack 堆叠采用任意大小的DataFrame,并将列“堆叠现有索引的子索引。因此,所得的DataFrame仅具有一列和两级索引。 ? 堆叠名为df的表就像df.stack()一样简单 。...要记住:从外观上看,堆栈采用表的二维性并将列堆栈多级索引。 Unstack 取消堆叠将获取多索引DataFrame并对其进行堆叠,将指定级别的索引转换为具有相应值的新DataFrame的列。...另一方面,如果一个键在同一DataFrame中列出两次,则在合并表中将列出同一键的每个值组合。

13.3K20

地理加权分析_地理加权回归中的拟合度

虽然在软件里面,默认只显示这样一张图,但是整个GWR分析完成之后,会生成大量的数据,今天我们就来看看ArcGIS的GWR工具的结果生成的哪些结果代表了什么东西。...OLS的估计值。...而对于局部来说,它的估计值就具有相对较小的方差(局部和全局差不多,值散布范围很小),但是偏差就大了(异质性何在……) 但是如果我的带宽无限接近0的时候,除要素本身以外,旁边所有的临近要素的权重都是...此值可解释回归模型所涵盖的因变量方差的比例。R2 计算的分母因变量值平方和。...发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

1.2K20

多元线性回归模型精度提升 -- 虚拟变量

再次进行建模操作,发现模型精度得到了很大提升 笔者特地没有将类别变量 style 也转成虚拟变量,的就是合理留白,让读者自行尝试并体会 “惊喜” 结果。...结果说明 所以最终的建模结果:房屋价格 price = 344.39×area + bedrooms×5609.34 - bathrooms×4900.94 - A×77.9 + B×524381.71...- 203072.2,模型精度 0.919....其实根据原理趣析部分的表格来看,如果房屋在C区,那等式中 A 和 B 这两个字母的值便是 0,所以这便引出了非常重要的一点:使用了虚拟变量的多元线性回归模型结果中,存在于模型内的虚拟变量都是跟被删除掉的那个虚拟变量进行比较...还有,虽然模型精度比较理想,但在使用 ols 进行建模时,结果表格下方其实还显示了如下的 Warnings(警告),表明可能存在比较强的多元共线性问题,这也是提升多元线性回归模型精度和泛化性的非常经典且简单的操作

1.2K30

机器学习 | 使用statsmodels和sklearn进行回归分析

2. statsmodels的矩阵的形式 ❝statsmodels有两种方法,一种是通过numpy矩阵操作的形式运算,这里的OLS都是大写,另一种是formula形式,ols是小写,风格类似R。...结果可以看出,截距-87.5167,回归系数3.45,两者都达到极显著水平。...❞ import statsmodels.formula.api as smf smf.ols("weight ~ height",data=dat).fit().summary() 结果: ?...在这里插入图片描述 可以看出,截距-87.51667,回归系数3.45,R方为0.991,调和R方为0.9903,和之前的结果完全一致。...「快来关注我吧,看我是如何在进军机器学习的路上:」 信心满满离开家, 备受打击咬着牙, 以为坚持能入门, 成功劝退脸被打。

2.3K20

机器学习:说说L1和L2正则化

L1正则化是指权重参数 w 中各个元素的绝对值之和,通常表示 ||w||1;L2正则化是指 中各个元素的平方和然后再求平方根,通常表示 ||w||2 。...2 L1和L2的作用 L1正则化可以产生稀疏权重参数矩阵,从而得到一个稀疏模型,这样表示0的特征的贡献值0,那么自然地我们会在这100个特征列中将这些过滤掉,只留下那些对因变量产生主要贡献的参数,简而言之...从以上结果图中看到L1的等高线图是一个四边形(对于二维特征来说),L2是一个圆形。...还是假定数据集的特征二维:w1, w2,costOLS的等高线和 costL1的图如下所示: ?...),那么只要数据偏移一点点,就会对结果造成很大的影响,OLS对多重共线性问题的抗扰动能力很差!

1.6K90

比较R语言机器学习算法的性能

使用重采样方法,交叉验证,就可以得到每个模型在未知数据上精准度的估计。你需要利用这些估计从你创建的一系列模型中选择一到两个最好的模型。...我们将使用重复交叉验证,folds10,repeats3,这是比较模型的常用标准配置。评估指标是精度和kappa,因为它们很容易解释。 根据算法的代表性和学习风格方式进行半随机选择。...它会创建一个表格,每行是一种算法,每列是评估指标。在这里我们已经整理好了结果。 Accuracy Min. 1st Qu. Median Mean 3rd Qu. Max....我认为这在以后对分析不同方法如何在组合预测中结合很有帮助(例如堆叠),尤其当你在相反方向看到有相关运动时。 ?...我们可以直接调用summary()函数汇总结果

1.3K60

硕士毕业半年的茫茫社招路

https://github.com/conanhujinming/tips_for_interview/blob/master/After_Half_A_Year.md 前篇校招找工作总结:写在20...除了几位主角的学习生活,还讲述了当时在一师的一批优秀教师(杨昌济、孔昭绶等)立志教育救国,“欲栽大木柱长天”的宏伟志向与相应行动。...结果她接着问:“那你之前是怎么进的Google啊?”我差点笑出了声,原来是因为这个原因才问我这几个问题。于是我回她:“因为我强啊。”(笑) 后来就安排我开始面试。...结果事情变化得很快,没多久他就收到了阿里云的邀请。这下我可就犯难了,这倒不是完全因为阿里的工作环境和氛围可能不适合我,还因为我知道我的简历去投阿里云数据库组的社招,很可能连表刷(简历筛选)都过不了。...而这些领域应用高性能的时序数据库,还能够实现一些以前很难实现的功能,核电站的实时异常检测等,这些功能的实现对于国家与社会显然是具有重要意义的。

1.2K31

高效理解机器学习

可以进一步分为线性模型(linear model),OLS回归、SVM(具有线性核)、Ridge和LASSO,以及非线性模型,具有非线性核的SVM和神经网络。...1.3 元模型和集成方法 在机器学习中,元模型(meta-model)是一种将多个个体模型的预测结果结合起来以获得更准确预测的模型,也被称为“堆叠模型(stacked model)”或“超级学习器(super...值得注意的是,所有具有线性核的线性模型(OLS、LASSO、Ridge、SVM等),都可以写成线性方程y=wX+b的形式。然而,这些模型之间的区别在于用于估计模型参数w和b的最优值的代价函数。...然而,有必要将SVM只是理解一个线性模型,和OLS回归类似,方程y=wX+b。...Excel是一个广泛使用的电子表格程序,可用于可视化和操作数据。在机器学习领域,可以用来演示拟合过程是如何工作的简单模型(线性回归)。通过使用Excel,可以看到这个算法是如何一步步实现的。

24730

最小二乘回归的Python实现

它有如下数学模型: 其中,a 截距,b模型的回归系数,ε误差项。 a和 b 是模型的参数。我们的目标就是选择合适的参数,让这一线性模型最好地拟合观测值。...一般情况下,P值小于0.05,我们就认为结果显著,通过了5%的显著性检验。...利用Python实现OLS回归 数据简介 我们以鹏华资产-清水源(JR000001)例,对该基金近两年的周频复权累计净值收益率关于沪深300指数和中证500指数的收益率进行简单的ols回归。...OLS实证 1)从MYSQL读取数据 2)调取样本基金的复权累计净值数据 3)数据处理和计算 4)建立OLS回归模型 OLS回归结果分析 OLS的回归结果如下: 其中x1和x2分别代表沪深300和中证...这时我们如果仍采用普通最小二乘法估计模型参数,就会产生一系列不良的后果,:参数估计量非有效、变量的显著性检验失去意义、模型的预测失效等。 所以,在本文中我们首先进行简单的ols回归。

2.5K60
领券