本文我们超越了 CAPM 的简单线性回归,探索了 Fama French (FF) 股票风险/收益的多因素模型。
这个数据集可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病
任何数据分析的第一步都是按照所需要的格式创建数据集。在 R 中,这个任务包括两个步骤:首先选择一种数据结构来存储数据,然后将数据输入或者导入这个数据结构中。下面介绍 R 中用于存储数据的多种数据结构。
在进行正式的数据分析之前,通常要对数据进行处理。而读取数据仅仅是最简单的,之后还要进行数据的筛选、排序、转换等。数据框是最方便的数据存储、管理对象。R有很多内置的示例数据集包括向量、矩阵数据框等,可以使用data()进行查看,接下来我们以R内置数据mtcars(32辆汽车在11个指标上的数据)为例进行分析,如下所示:
这个数据集可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病 。
诊断图的横轴是拟合值,纵轴是残差、标准差或标准差的平方根,一般当各点的标准差集种在0处且分布较为均匀时,则说明拟合结果较好。上图显示2,3,5这三个样本的拟合值可能存在较大误差和,需仔细考虑。
https://hbctraining.github.io/Intro-to-R/lessons/04_introR-data-wrangling.html
这个数据集可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病。
Metascape(http://metascape.org/) 是一个功能强大的基因功能注释分析工具,能帮助用户将当前流行的生物信息学分析方法应用到批量基因和蛋白质的分析中,以实现对基因或蛋白功能的认知。只需在Metascape网页几步简单的操作,就可以对大批量的基因或蛋白质进行注释、富集分析以及构建蛋白质-蛋白质互作网络。并且构建的蛋白互作网络还可以直接导出给Cytoscape使用,绘制美观、可发表的蛋白互作网络图。
R语言 控制流:for、while、ifelse和自定义函数function|第5讲
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。
在正文内容开始之前,我先给大家推荐一个文档https://google.github.io/styleguide/Rguide.xml
决策树模型是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。与传统的线性回归模型不同,决策树回归模型能够捕捉到非线性关系,并生成易于解释的规则。
学习R会慢慢的发现,数据的前期准备通常会花费很多的时间,从最基础的开始学,后面逐渐使用更便利的工具(R包)解决实际的问题。
第一自变量h与与第二自变量sex是等长的, 对应元素分别为同一人的身高和性别, tapply()函数分男女两组计算了身高平均值
变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。因子(factor)是R语言中比较特殊的一个数据类型, 它是一个用于存储类别的类型,举个例子,从性别上,可以把人分为:男人和女人,从年龄上划分,又可以把人分为:未成年人(<18岁),成年人(>=18)。R把表示分类的数据称为因子,因子的行为有时像字符串,有时像整数。因子是一个向量,通常情况下,每个元素都是字符类型,也有其他数据类型的元素。因子具有因子水平(Levels),用于限制因子的元素的取值范围,R强制:因子水平是字符类型,因子的元素只能从因子水平中取值,这意味着,因子的每个元素要么是因子水平中的字符(或转换为其他数据类型),要么是缺失值,这是因子的约束,是语法上的规则。
Timestamp是pandas用来替换python datetime.datetime的 可以使用to_datetime函数把数据转换成Timestamp类型
tibble 是一种简单数据框,它对传统数据框的功能进行了一些修改,其所提供的简单数据框更易于在 tidyverse 中使用。
R中缺失值以NA表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na()它可以应用于向量、数据框等多种对象,返回逻辑值。
特征工程对于模型的执行非常重要,即使是具有强大功能的简单模型也可以胜过复杂的算法。实际上,特征工程被认为是决定预测模型成功或失败的最重要因素。特征工程真正归结为机器学习中的人为因素。通过人类的直觉和创造力,您对数据的了解程度可以带来不同。
1、R中的数据结构-Array #一维数组 x1 <- 1:5; x2 <- c(1,3,5,7,9) x3 <- array(c(2, 4, 6, 8, 10)) #多维数组 xs <- array(1:24, dim=c(3,4,2)) #访问 x1[3] x2[c(1,3,5)] x3[3:5] xs[2, 2, 2] xs[2, 2, 1] #增加 x1[6] <- 6 x2[c(7, 9, 11)] <- c(11, 13, 15) #动态增加 x1[length(x1) + 1] <
R具有强大的统计计算功能和便捷的数据可视化系统。目前R主要支持四套图形系统:基础图形(base)、网格图形(grid)、lattice图形和ggplot2。其中ggplot2凭借强大的语法特性和优雅的图形外观,逐渐成为R中数据可视化的主流选择。
由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般。它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的数据结构。
新媒体管家 大约3年前我开始使用R,起初进展很慢,与我习惯的语言相比,语法更加直观也比较简单,而且需要一段时间才能习惯于细微的差别。我还不清楚语言的力量与社区和各种包的密切关系。 和其他语言(比如Py
大型数据集通常是高度结构化的,结构使得我们可以按不同的方式分组,有时候我们需要关注单个组的数据片断,有时需要聚合不同组内的信息,并相互比较。
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 前言 在之前的文章中,我们使用Qlib实现了GAT与新闻共现矩阵的量化策略(A股实践 :图神经网络与新闻共现矩阵策略(附代码))。后台收到很多留言,希望我们能够出一些Qlib的使用教程。Qlib确实一个非常体系化、流程化
最近我们被客户要求撰写关于增强回归树(BRT)的研究报告,包括一些图形和统计输出。
在本文中,在R中拟合BRT(提升回归树)模型。我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果。
本期介绍的是 《Machine Learning with R, tidyverse, and mlr》 一书的第四章——逻辑回归(logistic regression)。逻辑回归是基于概率分类的有监督学习算法,它依赖于直线方程,产生的模型非常容易解释和交流。在其最简单的形式中,逻辑回归被用来预测二分类问题,但算法的变体也可以处理多个类。
因子(Factors)在R语言中通过将变量转换成因子就可以使之成为R里的名义变量,关于名义变量的概念大家可以自行百度,这里就不赘述。对于因子的理解,我们可以将其简单地看成一种建立了映射关系的分类变量,举个简单的例子,比如性别简单地可以分为两类(‘男性’和‘女性’),如果将性别这个变量转换成因子,那么在R中‘男’就可以变成2,‘女’就变成1,同时建立了一个1à‘男’和2à‘女‘这样的映射关系,这样的好处是可以使R的运行更加高效。
Kaggle 决定将他们每月的表格竞赛延续到 2022 年这对于我们来说是非常好的消息。并且也Kaggle 表示他们已经考虑大家的评论,所以我希望这意味着他们将不再使用庞大到使系统崩溃的数据集,这次1月的比赛数据集就不是很大。
来源:DeepHub IMBA本文共1500字,建议阅读8分钟本文作者将使用 HistGradientBoostingRegressor 进行测试。 Kaggle 决定将他们每月的表格竞赛延续到 2022 年这对于我们来说是非常好的消息。并且Kaggle 表示他们已经考虑大家的评论,所以我希望这意味着他们将不再使用庞大到使系统崩溃的数据集,这次1月的比赛数据集就不是很大。 在我看来,2022 年 1 月的竞赛问题是对涵盖几年时间的销售额的预测,这可以用机器学习构成一个时间序列。 我在下面的屏幕截图中包含了问
数据科学 ≠ 软件工程 [08:43]。你会看到一些不符合 PEP 8 的代码和import *之类的东西,但暂时跟着走一段时间。我们现在正在做的是原型模型,原型模型有一套完全不同的最佳实践,这些实践在任何地方都没有教授。关键是能够非常互动和迭代地进行操作。Jupyter 笔记本使这变得容易。如果你曾经想知道display是什么,你可以做以下三件事之一:
本文是一个简短的教程,在R中拟合BRT(提升回归树)模型。我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果。
在本文中,在R中拟合BRT(提升回归树)模型。我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果。 ( 点击文末“阅读原文”获取完整代码数据******** )
作者:ANKIT CHOUDHARY 翻译:张媛 术语校对:冯羽 文字校对:谭佳瑶 本文共3933字,建议阅读9分钟。 本文带大家了解因子分解机算法并解析其优势所在,教你在python中实现。 介绍 我仍然记得第一次遇到点击率预测问题时的情形,在那之前,我一直在学习数据科学,对自己取得的进展很满意,在机器学习黑客马拉松活动中也开始建立了自信,并决定好好迎接不同的挑战。 为了做得更好,我购买了一台内存16GB,i7处理器的机器,但是当我看到数据集的时候却感到非常不安,解压缩之后的数据大概有50GB - 我
解决的一个常见问题是有一定数量的用户和产品,您想推荐哪些产品最有可能对哪些用户有用。存在许多变体:例如,推荐电影(如 Netflix 上),确定在主页上为用户突出显示什么,决定在社交媒体动态中显示什么故事等。解决这个问题的一般方法称为协同过滤,工作原理如下:查看当前用户使用或喜欢的产品,找到其他使用或喜欢类似产品的用户,然后推荐那些用户使用或喜欢的其他产品。
这一节话不多说,这一期直接进入主题,开始介绍R中的数据结构。这是学习R语言强大的统计分析功能的基础。R中自带了大量的数据集供大家在学习中联系。在开始介绍数据结构之前,先简单介绍以下如何查看及使用这些数据集,之后在介绍数据结构时,也会大量使用到这些数据集。
以项目的方式管理R代码和文件,可以很大程度规避 1)工作路径不对,2)找不到文件 ,3)代码和文件不对应 ,等常见的问题。
大家好,我是架构君,一个会写代码吟诗的架构师。今天说一说R语言笔记完整版[通俗易懂],希望能够帮助大家进步!!!
最近我们被客户要求撰写关于增强回归树的研究报告,包括一些图形和统计输出。 在本文中,在R中拟合BRT(提升回归树)模型。我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果。
摘要: 你是否为研究数据挖掘预测问题而感到兴奋?那么如何开始呢,本案例选自Kaggle上的数据竞赛的一个数据竞赛项目《泰坦尼克:灾难中的机器学习》,案例涉及一个小型数据集及到一些有趣且易于理解的参数,是一个完美的机器学习入口。 泰坦尼克号在进行从英国到纽约的处女航时,不幸的撞到了冰山上并沉没。在这场比赛中,你必须预测泰坦尼克号上乘客们的命运。 在这场灾难中,惊恐的人们争先恐后地逃离正在沉没的船是最混乱的事。“女士和儿童优先”是这次灾难中执行的著名准则。由于救生艇数量不足,只有一小部分乘客存活下来。在接
用于分析投资组合风险的最受欢迎的模型是因子模型,因为股票具有共同移动的趋势。证券的主要组成部分经常会解释很大一部分差异。由于我们主要关注构成投资组合的多种资产,因此需要对此进行说明。有些问题可能是为什么低市净率的股票要比具有较高市净率的股票好吗?在此,比率的“价格”部分仅是股价(每股),比率的“帐面”部分是“股东权益” /“流通股”,这是公司资产负债表上的项目。
领取专属 10元无门槛券
手把手带您无忧上云