如何在dolphindb中将ols结果堆叠为表格？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从计算、建模到回测：因子挖掘的最佳实践

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，荣获2021年度AMMA优秀品牌力、优秀洞察力大奖，连续2年被腾讯云+社区评选为“年度最佳作者”。前言因子挖掘是量化交易的基础。除传统的基本面因子外，从中高频行情数据中挖掘有价值的因子，并进一步建模和回测以构建交易系统，是一个量化团队的必经之路。金融或者量化金融是一个高度市场化、多方机构高度博弈的领域。因子的有效时

02

R语言异方差回归模型建模：用误差方差解释异方差

在社会科学中将OLS估计应用于回归模型时，其中的一个假设是同方差，我更喜欢常误差方差。这意味着误差方差没有系统的模式，这意味着该模型在所有预测级别上都同样差。

01

您找到你想要的搜索结果了吗？

是的

没有找到

新型行情中心：基于实时/历史行情的指标计算和仿真系统

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，荣获2021年度AMMA优秀品牌力、优秀洞察力大奖，连续2年被腾讯云+社区评选为“年度最佳作者”。随着国内量化金融的高速发展，行情数据所包含的微观交易结构信息越来越受到券商自营团队、资管团队以及各类基金的重视。这些交易团队迫切希望拥有一个与生产环境类似的投研仿真环境，提升研发的效率和质量。今天，公众号将为大家分享

02

DolphinDB：金融中高频量价因子的实时计算

复杂而又变化多端的中高频量价因子的研究和开发已经成为众多量化私募最重要的工作之一。DolphinDB作为一个一站式的时序数据存储、分析和实时计算平台，可以帮助金工和IT人员将复杂的因子快速转化成能在研发或生产环境中高效运行的计算机脚本。

03

数据可视化？不如用最经典的工具画最酷炫的图

做数据分析和做科普是类似的，科普的意义在于将晦涩难懂的科学知识，以让大众更易接受和理解的方式呈现。而数据分析中的数据可视化做的正是如此关键中的关键，即是将数据的特点以一种显而易见的形式进行呈现。但也不必说的那么高级，我们可以说数据可视化就是“画图”。

02

如何在 Python 中将作为列的一维数组转换为二维数组？

数组是编程中的基本数据结构，使我们能够有效地存储和操作值的集合。Python作为一种通用编程语言，提供了许多用于处理数组和矩阵的工具和库。特别是，在处理表格数据或执行需要二维结构的操作时，将 1−D 数组转换为 2−D 数组的能力是一项基本技能。

04

ML Mastery 博客文章翻译（二）20220116 更新

Machine Learning Mastery 计算机视觉教程通道在前和通道在后图像格式的温和介绍深度学习在计算机视觉中的 9 个应用为 CNN 准备和扩充图像数据的最佳实践 8 本计算机视觉入门书籍卷积层在深度学习神经网络中是如何工作的？ DeepLearningAI 卷积神经网络课程（复习）如何在 Keras 中配置图像数据扩充如何从零开始为 CIFAR-10 照片分类开发 CNN 用于 Fashion-MNIST 服装分类的深度学习 CNN 如何为 MNIST 手写数字分类开发 CNN

03

深度森林第三弹：周志华组提出可做表征学习的多层梯度提升决策树

选自arXiv 作者：冯霁、俞扬、周志华机器之心编译自去年周志华等研究者提出了「深度森林」以后，这种新型的层级表征方式吸引了很多研究者的关注。今日，南京大学的冯霁、俞扬和周志华提出了多层梯度提升决策树模型，它通过堆叠多个回归 GBDT 层作为构建块，并探索了其学习层级表征的能力。此外，与层级表征的神经网络不同，他们提出的方法并不要求每一层都是可微，也不需要使用反向传播更新参数。因此，多层分布式表征学习不仅有深度神经网络，同时还有决策树! 近十年来，深层神经网络的发展在机器学习领域取得了显著进展。通过构建

04

DolphinDB：金融高频因子流批统一计算神器！

DolphinDB为海量结构化数据的极速存储、检索、计算与分析提供了一站式解决方案，特别适合金融行业用来处理大规模数据，尤其是L1，L2以及逐笔委托的行情数据。

00

R语言如何和何时使用glmnet岭回归

这里向您展示如何在R中使用glmnet包进行岭回归（使用L2正则化的线性回归），并使用模拟来演示其相对于普通最小二乘回归的优势。

01

干货！直观地解释和可视化每个复杂的DataFrame操作

大多数数据科学家可能会赞扬Pandas进行数据准备的能力，但许多人可能无法利用所有这些能力。操作数据帧可能很快会成为一项复杂的任务，因此在Pandas中的八种技术中均提供了说明，可视化，代码和技巧来记住如何做。

02

排名前十的时序数据库

时序数据库全称为时间序列数据库。时间序列数据库主要用于指处理带时间标签（按照时间的顺序变化，即时间序列化）的数据，带时间标签的数据也称为时间序列数据。时序数据的兴起还是榜上了物联网的大风。物联网（Internet of Things，简称IOT）是指通过各种信息传感器实时采集任何需要管理设备的信息，并进行管理。物联网的基础数据具有数据量大、结构单一、时间属性强、查询简单等特点，传统的关系型数据库在面对物联网数据时，显得应对发力，基本上属于功能过剩但性能不足。目前最新的DB-Engine上时序数据库排名如下:

03

Alertmanager对接Loki实现日志告警 | 坑我已经帮你们踩好了

很多情况下，反映一个服务的健康状态，单从其服务可用性并不完全准确，反而服务的某些日志可以准确的反映出这个服务是否处于亚健康状态，是否即将出现异常，从而从一定程度进行故障预测和干预。

04

CSS属性汇总--(6) 定位属性3

right 属性规定元素的右边缘。该属性定义了定位元素右外边距边界与其包含块右边界之间的偏移。

02

机器学习：说说L1和L2正则化

0 回顾在最近的推送中，先后总结了最小二乘法的原理，两个求解方法：直接法和梯度下降，最后利用这两种思路进行了python实战；之后阐述了OLS算法使用的前提是必须满足数据集无多重共线性，因为它是无偏估计，这也带来了它非常惧怕多重共线性问题，在面对这些数据时，它往往得到的权重参数方差大，是一个不稳定的回归算法。工程应用中，你拿到的数据集可能有上百个特征维度，实际上是很难保证数据集中的所有维度都满足无共线性，所以OLS实际上没有太多的实际应用价值，它必须要想到一种办法解决多重共线性，进而过滤掉那些权重参数等

09

线性回归的结果解释 I：变量测度单位变换的影响

执行回归命令前，明确变量的单位至关重要。下式为一个简单的企业CEO工资决定方程，salary 是以1000元为单位的CEO年度工资水平，roe为CEO所在公司前三年的平均资本权益报酬率（return on equity），由净收入占共同权益的比重定义，例如，roe=10表示平均资本权益报酬率为10%。

R语言中的Theil-Sen回归分析

用这种方法计算斜率非常可靠。当误差呈正态分布且没有异常值时，斜率与OLS非常相似。

00

解决机器学习问题有通法！看这一篇就够了！

大数据文摘作品作者：Abhishek Thakur 编译：Cathy，黄文畅，姜范波，寒小阳前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化，以便于在之后应用机器学习模型。这篇文章的重点便在后者—— 应用机器学习模型（包括预处理的阶段）。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体上适用的，当然还有很多被

04

地理加权分析_地理加权回归中的拟合度

地理加权回归分析完成之后，与OLS不同的是会默认生成一张可视化图，像下面这张一样的：

02

多元线性回归模型精度提升 -- 虚拟变量

构建多元线性回归模型时，如果能够充分的使用已有变量，或将其改造成另一种形式的可供使用的变量，将在一定程度上提高模型精度及其泛化能力。因为数据集中的名义变量(或叫类别变量)是无法直接使用的，所以虚拟变量(又叫哑元变量)的设置便是非常经典且必须掌握的一步，原理简单，实现优雅，效果拔群。

03

R语言两阶段最小二乘法2SLS回归、工具变量法分析股息收益、股权溢价和surfaces曲面图可视化

投资者最关心的两个问题就是收益率和股息，两者作为公司经营状况的两个重要方面，往往同时出现在投资报告中，二者之间具有较强的关联性。目前，国内外对于股票股息收益、股息收益率和股权溢价等方面的研究已有很多，但大多数是关于市场环境或宏观因素对上述指标产生影响的研究。

00

计量笔记｜异方差

方差较大的数据包含的信息量较小，但 OLS 却对所有数据等量齐观进行处理，故异方差的存在使得 OLS 的效率降低。

02

机器学习 | 使用statsmodels和sklearn进行回归分析

记录一下使用Python进行的单变量回归分析的操作流程。另外推荐一个sklearn机器学习的哔哩哔哩视频（文末阅读原文，进行观看）。

02

Power BI 表格绝对值和百分比组合

在《销售排行榜这么做：Power BI绝对值和占比组合图》这篇文章有介绍如何在图表中将绝对值和百分比组合到一起。

05

逻辑回归(对数几率回归,Logistic)分析研究生录取数据实例

Logistic回归，也称为Logit模型，用于对二元结果变量进行建模。在Logit模型中，结果的对数概率被建模为预测变量的线性组合。

03

原理+代码|Python实战多元线性回归模型

「多元线性回归模型」非常常见，是大多数人入门机器学习的第一个案例，尽管如此，里面还是有许多值得学习和注意的地方。其中多元共线性这个问题将贯穿所有的机器学习模型，所以本文会「将原理知识穿插于代码段中」，争取以不一样的视角来叙述和讲解「如何更好的构建和优化多元线性回归模型」。主要将分为两个部分：

03

入门 | 贝叶斯线性回归方法的解释和优点

选自TowardsDataScience 作者：William Koehrsen 机器之心编译参与：Geek AI、刘晓坤本文对比了频率线性回归和贝叶斯线性回归两种方法，并对后者进行了详细的介绍，分析了贝叶斯线性回归的优点和直观特征。我认为贝叶斯学派和频率学派之间的纷争是「可远观而不可亵玩」的学术争论之一。与其热衷于站队，我认为同时学习这两种统计推断方法并且将它们应用到恰当的场景之下会更加富有成效。出于这种考虑，最近我努力学习和应用贝叶斯推断方法，补充学校课程所学的频率统计方法。贝叶斯线性模型是我最

08

随机森林 – Random forest

随机森林属于集成学习中的 Bagging（Bootstrap AGgregation 的简称）方法。如果用图来表示他们之间的关系如下：

01

「毕业设计」调教Word指南

请注意，本文编写于 1102 天前，最后修改于 1102 天前，其中某些信息可能已经过时。

01

微信小程序|文本框和页面分割线

在配置微信小程序的页面时，大部分普通页面需要添加文本框并在其中设置文本，以及设置分割线，其中也包括设置样式所处位置。这就需要我们合理使用view标签搭配WXSS配置页面。

03

比较R语言机器学习算法的性能

原文：Compare The Performance of Machine Learning Algorithms in R 译文：http://geek.csdn.net/news/detail/58172 作者： Jason Brownlee 译者：刘翔宇审校：赵屹华责编：周建丁你如何有效地计算出不同机器学习算法的估计准确性？在这篇文章中，你将会学到8种技术，用来比较R语言机器学习算法。你可以使用这些技术来选择最精准的模型，并能够给出统计意义方面的评价，以及相比其它算法的绝对优

06

11年逆袭，寒门专升本职高生终成MIT博士生！自学CMU课狂发5篇顶会，全网热议

最近，专升本职高生周信静逆袭成MIT博士生的故事，再度刷爆互联网，冲上知乎热搜第一。

02

Python实现固定效应回归模型实现因果关系推断

众所周知，“相关并不意味着因果关系”。我要告诉你，相关可以表示因果关系，但需要一定条件。这些条件已在计量经济学文献中被广泛讨论。在本文中，我将以一种易于理解的方式对其进行总结。我将解释如果不满足这些条件为什么标准的普通最小二乘（OLS）无法确定因果关系。然后，我将介绍可以提供有效解决方案的固定效应（FE）模型。之后，我将使用两套数据分析示例向您展示如何在python中进行操作。我希望本文能够通过良好的设计和令人信服的结果增强您对因果关系的理解。

04

五大难懂的Python库，每位数据科学家都应了解

每位数据科学家的项目都是从处理数据开始的，而互联网则是最大、最丰富、最易访问的数据库。但可惜的是，数据科学家除了能通过pd.read_html函数来获取数据外，一旦涉及从那些数据结构复杂的网站上抓取数据时，他们大多都会毫无头绪。Web爬虫常用于分析网站结构和存储提取信息，但相较于重新构建网页爬虫，Scrapy使这个过程变得更加容易。

01

70个NumPy练习：在Python下一举搞定机器学习矩阵运算

翻译 | 王柯凝责编 | suisui 【导读】Numpy是一个开源的Python科学计算库，专用于存储和处理大型矩阵，相比Python自身的嵌套列表结构要高效很多，是数据分析、统计机器学习的必备工具。Numpy还是深度学习工具Keras、sk-learn的基础组件之一。此处的70个numpy练习，可以作为你学习numpy基础之后的应用参考。练习难度分为4层：从1到4依次增大。快来试试你的矩阵运算掌握到了什么程度： 1.导入模块numpy并以np作为别名，查看其版本难度：1 问题：导入模块num

04

表格数据深度学习框架-DeepTables

MLP（也称为全连接神经网络）已被证明在学习分布表示方面效率低下。事实证明，感知器层的“Add”操作在探索乘法特征交互时性能较差。在大多数情况下，必须进行手动特征工程，并且这项工作需要广泛的领域知识并且非常繁琐。如何在神经网络中有效地学习功能交互成为最重要的问题。

02

高效理解机器学习

对于初学者来说，机器学习相当复杂，可能很容易迷失在细节的海洋里。本文通过将机器学习算法分为三个类别，梳理出一条相对清晰的路线，帮助初学者理解机器学习算法的基本原理，从而更高效地学习机器学习。

03

最全面的Pandas的教程！没有之一!

Pandas 是基于 NumPy 的一个开源 Python 库，它被广泛用于快速分析数据，以及数据清洗和准备等工作。它的名字来源是由“ Panel data”（面板数据，一个计量经济学名词）两个单词拼成的。简单地说，你可以把 Pandas 看作是 Python 版的 Excel。

06

再谈可视化：如何展示数据

如何来展现的你的数据？是你有时不得不去思考的一个问题。不同的展示方法，其效果往往差异巨大。这里我将结合近期的一些阅读和实践，试图给出一些方法，希望能帮助到你。

02

70道NumPy 测试题

问题：在不使用硬编码的前提下创建以下模式。仅使用 NumPy 函数和以下输入数组 a。

01

你真的懂如何展示数据吗？

不同的展示方法，其效果往往差异巨大。这里我将结合近期的一些阅读和实践，试图给出一些方法，希望能帮助到你。

03

实例操作

这次我们需要实现的场景是在前端表格环境中，像模板按钮那样，点击之后弹出一个侧边栏，然后通过点击不同的单元格显示不同的内容。

02

BI技巧丨权限管控

这个问题相信很多小伙伴都遇到过，或者被其他人问过，白茶总结了一下用户比较在意的几个点：安全性、自助性、权限管控、易用性、兼容性、扩展性、便捷性、反应速度等。

01

加权最小二乘法(文末送书)

今天这篇来讲讲加权最小二乘法(WLS)，加权最小二乘是在普通的最小二乘回归(OLS)的基础上进行改造的。主要是用来解决异方差问题的，关于异方差可以看看：讲讲什么是异方差

03

深入理解XGBoost：集成学习与堆叠模型

XGBoost是一种强大的集成学习算法，但在解决复杂问题时，单个模型可能无法达到最佳性能。集成学习和堆叠模型是两种有效的方法，可以进一步提高模型的性能。本教程将深入探讨如何在Python中应用集成学习和堆叠模型，使用代码示例详细说明这些概念。

01

Excel实现卷积神经网络

当你入门的时候，可能觉得机器学习很复杂……甚至很可怕。另一方面，电子表格却很简单。电子表格并不酷炫，但却能避免分散你的注意力，同时帮助你以直观的方式可视化代码后面发生的事情。

05

用python输出stata一样的标准化回归结果

如果你经常用stata写论文，会了解stata有个outreg2的函数，可以把回归的结果输出成非常规范的论文格式，并且可以把多个回归结果并在一起，方便对比。例如下图

02

写给开发者的机器学习指南（十）

An attempt at rank prediction for topselling books using text regression

03

使用PyTorch进行表格数据的深度学习

使用表格数据进行深度学习的最简单方法是通过fast-ai库，它可以提供非常好的结果，但是对于试图了解幕后实际情况的人来说，它可能有点抽象。因此在本文中，介绍了如何在Pytorch中针对多类分类问题构建简单的深度学习模型来处理表格数据。

05

numpy/pandas瞎搞系列（一）：OLS,WLS的numpy实现

python里很多模块都有OLS的实现，之前总结过一次，详见《从零开始学量化（五）：用Python做回归》。今天这个是自己用numpy实现OLS，WLS的一些内容。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭