首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Fama French (FF) 三因子模型CAPM模型分析股票市场投资组合风险收益可视化

FF 模型通过回归除市场收益之外几个变量投资组合收益来扩展 CAPM。从一般数据科学角度来看,FF 将 CAPM 简单线性回归(我们一个自变量)扩展到多元线性回归(我们许多自变量)。...数据被打包为 zip 文件,所以需要做不仅仅是调用 read_csv()。使用tempfile() 基础 R 中 函数来创建一个名为 temp. 这是我们将放置压缩文件地方。...现在我们了格式不错数据。CAPM 使用简单线性回归,而 FF 使用具有许多自变量多元回归。...conf.high conf.low 列来保存我们置信区间最小最大。...,因为与 CAPM 一样,我们正在回归一个包含 3 个因素市场投资组合,其中一个是市场。

3.7K30

饭店流量指标预测

date_info.csv数据集为日历数据 sample_submission.csv为测试数据集,即提交结果(注意其格式,处理时需要把ID日期分别提取,即预测每个饭店每天流量情况) sample_submission.csv...将这些文件分为9个大区,其天气特征按均值合并,合并成大区天气数据,保存成以w_大区名.csv为名文件。...部分天气特征缺失用前一天数值来填充。这两类地方保存成19个以大区名_城市名.csv为名文件62个城市是没对就城市天气数据,所以用大区天气数据填充。...线性回归回归在这次数据R2评分中排名第三、第四,次于两个集算法,但本身模型能力或复杂度受限,即使岭回归6个参数可以调,但对RMSE、R2等评价指标提升作用非常微小。...CV验证R2默认参数下是0.4926,优化调参是0.4928。但是线性模型个明显优势是——快,在做特征工程后,可以通过线性模型来作初步评价,从而反推特征工程有没有做,还有没有提升空间。

52010
您找到你想要的搜索结果了吗?
是的
没有找到

python数据分析——时间序列

通过使用date.today(),可以创建一个date类对象,其中包含日期元素,如年、月、日,但不包含时间元素,比如时分、秒。最后,可以使用year、monthday来捕获具体日期元素。...通过使用datetime.today(),可以创建一个datetime类对象,其中包含日期元素时间元素,如年、月、日、时、分、秒。...其中,a;为参数, et为白噪声,则称该序列为 p阶自回归AR§ 【例】已知存储在d盘给定某只股票交易数据(timeseries_data.csv) ,请利用自回归(AR)模型进行数据拟合,输出AR...模型阶数拟合效果图 (2) 滑动平均(moving average model/MA)模型 滑动平均(moving average model/MA)模型也称移动平均模型,是用过去各个时期随机干扰或预测误差线性组合来表达当前预测...在更加复杂情况下,一个ARMA过程可能是AR与MA过程、几个AR过程、AR与ARMA过程迭加,也可能是测度误差较大AR过程。

11910

天气预报 :天气数据集爬取 + 可视化 + 13种模型预测

经过思考,认为最高气温影响因素不能拿日期最低气温来衡量,也就是说,最高气温走势依据情况特殊而复杂,不能单靠日期最低气温等片面的为数不多方面来进行拟合。...而根据理论知识我们知道,这个模型预测结果应该是线性回归模型中预测拟合效果较好一种,低这个R方经过思考,可进一步说明最高气温影响因素不仅仅取决于日期最低气温,甚至我们可推断出可能日期及最低气温等影响因素无关...在拟合数据点时,一般来说,对于一个自变量,拟合出来是一条直线;对于两个自变量,拟合出来时一个直平面。这种拟合结果是严格意义上线性回归。...模型九:基于成本函数批量梯度下降算法实现线性回归模型 成本函数: 在使用训练数据来训练模型时,用于定义判别函数与实际误差。...线性回归主要都是针对训练数据计算结果均为数值情形。而在本例中,结果不是数值而是某种分类:这里分成日期最低气温两类。而且发现,两类并不显示明显分界线。

13.1K43

通过机器学习线性回归算法预测股票走势(用Python实现)

库会用到其他数据文件,本节用到包含在boston_house_prices.csv文件波士顿房价信息。...第1行506表示该文件包含506条样本数据,即有506条房价数据,而13表示13个影响房价特征,即从A列到M列这13列特征数据会影响第N列MEDV(即房价值),在表13.1中列出了部分列英文标题及其含义...而线性回归要解决问题是,量化地找出这些特征目标值(即房价)线性关系,即找出如下k1到k13系数数值b这个常量值。...不过,通过这个范例程序,还是可以看出基于线性回归实现预测一般步骤:根据一组(506条)数据特征(本范例中是DIS)目标值(房价),调用fit方法训练ltTool等线性回归对象,让它包含相关系数...第18行程序语句计算了要预测交易日数,在第19行中构建了一个线性回归预测对象,在第20行是调用fit方法训练特征目标值线性关系,请注意这里训练是针对训练集,在第22行中,则是用特征测试集来预测目标值

2.3K21

手把手教你实现共享单车数据分析及需求预测

这个Web应用背后“大脑”是一个线性回归模型(linear regression model)。它能够发现历史数据集与模型输出结果之间线性关系。...在这个目录中,你将看到两个文件一个文件夹,如图2所示。 ? ▲图2 终端窗口 requirements_jupyter.txt文件包含了运行本文Jupyter记事本文件所需Python库。...▲图3 Jupyter浏览器界面显示本文文件 然后,浏览器将打开一个Tab窗口相应Notebook界面,其中包含了与本文内容相关全部探索实验代码。...另外,还可以确认我们所处理一个连续数值变量问题,因此,对于自行车租赁数量训练预测,线性回归(或者类似线性回归模型)将是最佳选择。...简单线性回归 线性回归可能是最简单建模算法。它试图解释一个因变量一个或多个自变量之间关系。基本线性回归方程如图13所示。 ?

4.2K30

【案例】SPSS商业应用系列第2篇: 线性回归模型

用这种方法得到变量间关系数学描述就是回归模型。如果模型所描述变量关系是线性,则被称为线性关系。其中,一元线性回归描述一个变量(主要因素)对另一个变量影响。...在 Statistics 中 Regression(回归分析)菜单中包含功能模块很多,包括线性回归分析线性回归分析。...其中能够做“简单线性回归“多元线性回归”分析模块 Linear( 线性回归) 模块 ALM 模块。...BestSubsets 方法不仅仅只建立一个模型,而是采用穷尽搜索方法,在所有可能模型当中选择 10 个(默认设置)最优模型,每个模型所包含自变量可能不相同。...这些分析结果,保险公司可以针对性采取措施降低运营风险,提高效益。 ALM 可被应用到商业、科研教育领域等多个领域,有着十分广泛应用

2.3K71

机器学习-线性回归预测房价模型demo

这篇介绍在做房价预测模型时python代码,房价预测在机器学习入门中已经是个经典题目了,但我发现目前网上还没有能够很好地做一个demo出来,使得入门者不能很快找到“入口”在哪,所以在此介绍是如何做预测房价模型题目...数据分为训练数据测试数据,分别保存在kc_train.csvkc_test.csv两个文件中。...其中训练数据主要包括10000条记录,14个字段,主要字段说明如下: 第一列“销售日期”:2014年5月到2015年5月房屋出售时日期 第二列“销售价格”:房屋交易价格,单位为美元,是目标预测...3.数据取值一般跟属性有关系,但世界万物属性是很多,有些小,但不代表不重要,所有为了提高预测准确度,统一数据维度进行计算,方法特征缩放归一法等。...3.模型选择 这里我们选择多元线性回归模型。公式如下:选择多元线性回归模型。 ? y表示我们要求销售价格,x表示特征。需要调用sklearn库来进行训练。

1.8K20

python用回归模型对水泥生产关键温度点预测模型

在线DCS系统导出数据源:本项目组与某水泥厂进行了长期合作,根据相对应工艺,筛选出了目标温度参数对应所有相关测量点位,在DCS系统中采集了目标点位相关点位2个月生产数据,并导出到了CSV文件中以进行数据治理特征转换...:将原来CSV文件时间戳格式转换为python中更易处理datetime格式; 4.删除停产对应时间段数据行。...图1原始数据局部内容 图2数据集概览 划分训练集测试集 针对该月份数据划分出前面21天日期对应数据作为训练数据集,后10天对应数据为测试数据集。...采用第三组数据(来自于DCS相邻月份数据)进行模型预测,最终得到预测真实可视化结果如下图所示: 由上图可知,根据线性回归模型预测得到目标温度数值与真实在大多数情况非常接近,在所采集...应清醒认识到,由于水泥烧成系统生产包含关键参数较多,且原燃料不可能一成不变,更常见情况是原料燃料均存在一定波动,而反映两者质量分析数据并未包含在本项目的数据集中,因此该项目仅仅能够作为流程工业单一参数预测参考流程

32900

prophet Seasonality, Holiday Effects, And Regressors季节性,假日效应和回归

对于dataframe,每个假期一行两列(holiday节假日ds日期戳)。它必须包括所有出现假期,包括过去(历史数据),以及将来(待预测时间)。...在这里,我们创建一个dataframe,其中包括Peyton Manning所有季后赛出场日期: # Python playoffs = pd.DataFrame({ 'holiday': 'playoff...add_regressor函数提供了更通用接口,用于定义额外线性回归量,特别是不要求回归量是二进制指示符。另一个时间序列可以用作回归量,尽管它未来必须是已知。...此jupyter代码展示了一个使用天气因素作为预测自行车使用额外回归示例,并提供了如何将其他时间序列作为额外回归包含在内很好说明。...请注意,必须在拟合模型之前添加回归量。 额外回归量必须知道历史未来日期。因此,它必须是具有已知未来(例如nfl_sunday),或者在其他地方单独预测过结果。

1.5K20

Python 数据科学手册 5.6 线性回归

就像朴素贝叶斯(之前在朴素贝叶斯分类中讨论)是分类任务一个很好起点,线性回归模型是回归任务一个很好起点。 这些模型受欢迎,因为它们可以快速拟合,并且非常可解释。...你可能熟悉线性回归模型最简单形式(即使用直线拟合数据),但是可以扩展这些模型,来建模更复杂数据行为。...然而,线性回归估计器比这更加强大,除了简单直线拟合之外,它还可以处理这种形式多维线性模型。 y = a0 + a1x1 + a2x2 + ... 其中有多个x。...我们将执行一个简单线性回归,将天气其他信息与自行车计数相关联,以便估计这些参数中任何一个变化,如何影响特定日期的人数。...我们特征还不完整(即,人们不仅仅根据这些,决定是否骑车去上班),或者一些非线性关系,我们没有考虑到(例如,也许人们在高低温度下骑行较少)。

56510

prophet Seasonality, Holiday Effects, And Regressors季节性,假日效应和回归

对于dataframe,每个假期一行两列(holiday节假日ds日期戳)。它必须包括所有出现假期,包括过去(历史数据),以及将来(待预测时间)。...在这里,我们创建一个dataframe,其中包括Peyton Manning所有季后赛出场日期: # Python playoffs = pd.DataFrame({ 'holiday': 'playoff...add_regressor函数提供了更通用接口,用于定义额外线性回归量,特别是不要求回归量是二进制指示符。另一个时间序列可以用作回归量,尽管它未来必须是已知。...此jupyter代码展示了一个使用天气因素作为预测自行车使用额外回归示例,并提供了如何将其他时间序列作为额外回归包含在内很好说明。...请注意,必须在拟合模型之前添加回归量。 额外回归量必须知道历史未来日期。因此,它必须是具有已知未来(例如nfl_sunday),或者在其他地方单独预测过结果。

2.5K20

干货 | 20个教程,掌握时间序列特征分析(附代码)

关于时间序列数据大都存储在 csv 文件或其他形式表格文件里,且都包含两个列:日期观测。...增加一个 parse_dates=['date'] 字段,可以把包含日期数据列解析为日期字段。...其中一个重要原因是,自回归预测模型本质上是线性回归模型,将序列自身滞后作为预测因子。 如果预测因子之间互不相关,线性回归效果最优。...以下是几种比较有效填充方法: 向后填充法 线性法 二次插法 最近邻均值法 季节均值法 为了评估缺失填充效果,在时间序列中手动加入缺失,用以上几种方法对其进行填充,然后计算填充后序列与原序列均方误差...ACF PACF 18、如何计算偏自相关系数? 序列滞后 k 处偏自相关系数是 Y 回归方程滞后系数。Y 回归方程是指 Y 以自己滞后作为预测因子线性回归

4.8K11

爱数课实验 | 首尔共享自行车需求数据可视化分析

本案例使用Matplotlib包Seaborn可视化库,对首尔地区一共享单车公司在2017年到2018年使用量数据集进行可视化分析,并利用线性回归等模型预测单车使用量,得出共享单车使用量影响因素分析结论...数据简介 该数据集包含在首尔自行车共享系统中每小时出租公共自行车数量,以及相应天气数据假日信息,包含14个属性,8760条数据,下表中展示了数据集所有字段名称及对应含义: 列名 类型 含义说明...比如:Dew point temperature 是露点温度,最小约为-30,标准差为13,则可初步判断-30可能一个异常值,后续需要对此进行数据处理。...总结 综上所述,我们得出结论: 共享单车在夏季秋季使用量最大 随着温度升高和风速增加租车量在增加,随着湿度升高租车量在下降 Ridge 模型线性回归模型效果最好 爱数课(iDataCourse...)是一个面向院校大数据人工智能课程资源平台。

1.4K31

干货 | 一个数据分析师眼中数据预测与监控

考虑到线性回归logistic回归在处理非线性问题上短板,以及为了适配模型需对数据做大量预处理,如填补缺失,防止共线性等,我们自然偏向于树模型来做分类回归预测,Xgboost便是一个很好选择。...可行处理方式是对此类变量采取独热(one-hot)编码,每个特征都作为一个衍生变量,每个衍生变量都是一个二元(0/1)互斥特征,这种编码方式充分考虑了分类变量每个特征独特性。...在实时预测模型中,打包PMML文件不仅要包含模型文件,还要包含数据预处理过程,这就需要借助管道(Pipe)将原始数据处理过程(如编码,标准化,正则化等)分类器训练过程串联,再将管道本身打包成PMML...线性回归极大似然估计类似,3 sigma准则应用前提需假设原始数据满足或近似满足正态分布,而实际数据往往具体一定偏态性。...以某个业务指标为例,下图展示了指标近几年走势,天时序图非常明显季节效应和增长趋势,同时也可观察到一些节假日对业务指标的影响。 ? STL时间序列分解法可针对此类数据做异常检测时间序列预测。

1.7K40

Machine Learning With Go 第4章:回归

理解回归模型术语 正如前面提到回归本身是一个分析一个变量一个变量之间关系过程,但在机器学习中还用到了一些术语来描述这些变量以及各种类型回归回归有关过程: 响应(response)或因变量...可能为两个并无关联变量建立了一个线性回归模型。需要确保变量之间逻辑上关联性。 可能会因为拟合某些特定类型数据中异常或极端而偏离回归线,如OLS。...这些为我们提供了良好数值参考,后续会在训练线性回归模型时将看到这些数字。...上述场景中,RadioTV与Sales呈线性关系,Newspaper可能与Sales一定关系,但相关性并不明显。...但如果需要按照响应、日期或其他方式处理数据,则最好随机划分训练测试集。如果不这么做,训练测试集可能包含特定范围响应,这样响应可能会受到时间/日期等人为因素影响。

1.4K20

N-CryptoAsset投资组合 | 使用PCA识别高度相关加密货币(最近听说某币很疯狂哦!)

前言 在本文中,以每日加密货币价格时间序列为例,以选择其中一个加密货币,通过巧妙地合并,我们将创建一个可存储(例如HDF5,CSV文件格式)可重用N-CryptoAsset投资组合文件。...由于我们DataFrame(df)包含大量缺失(NaN),所以从这一点来看,多种可能性可以提取数据分析子集。...插也是一个坏主意。 一个是根据选择日期/时间间隔进行过滤,或强制所有的时间序列在同一天开始,数据可用于所有三个货币。...最后,通过分别添加xy标签来完成一个双曲线绘制: 第1季度“高于门槛货币可能与第3季度发生高度相关。同样适用于第2季度与第4季度。...我们使用两种不同工具这种货币对(密码时间序列)线性相关性,即单因素线性回归(R2)Kendall等级相关度量τ 高度相关加密货币: ETC ETH 0.953695467194 1.13545626686e

1.2K80

时间序列数据分析与预测之Python工具汇总

如果能将这些工具汇总,在以后项目中将会很受用。这篇文章是一个时间序列工具备忘录。其中一些是非常有名,也有些可能是第一次听说。不过没关系,先点赞加收藏,希望你以后会发现这篇文章很有用!...它支持来自各种文件类型数据输入,包括 CSV、JSON、Parquet、SQL 数据库表查询以及 Microsoft Excel。...一些常用时间序列特征是: 日期范围生成频率转换 移动窗口统计 移动窗口线性回归 日期转换 滞后等等 NumPy 时间序列处理 NumPy 是一个 Python 库,它增加了对巨大多维数组矩阵支持...该模块包含处理场景所需方法功能,例如: 日期时间表示 日期时间算术 日期时间比较 使用此工具处理时间序列很简单。它允许用户将日期时间转换为对象并对其进行操作。...时间序列预测方法很多种,从简单线性回归基于 ARIMA 方法开始,到复杂多层神经网络或集成模型。在这里,我们将展示一些支持不同类型模型包。

1.8K20

数据挖掘从入门到放弃(一):线性回归逻辑回归

一、理解线性回归模型 首先讲回归模型,回归模型研究是因变量(目标)自变量(预测器)之间关系,因变量可以是连续也可以离散,如果是离散就是分类问题。...+Θn*x+基本工资,预测y实际y_存有差距,策略函数就是使得m个特征集(真实y-预测平方最小。(差值可能是负数,所以采用平方); ?...按照对于正规方程求法,我们对θ 求偏导: ? 也就是,给定特征矩阵X因变量y,即可以求使误差率最小θ,满足后续回归模型。...三、逻辑回归模型 逻辑回归线性回归同属广义线性模型,逻辑回归是以线性回归为理论支持,是一个二分类模型,也可以推广多到分类问题,通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题,...数据分为训练数据测试数据,分别保存在kc_train.csvkc_test.csv两个文件中,其中训练数据主要包括10000条记录,14个字段:销售日期,销售价格,卧室数,浴室数,房屋面积,停车面积

70820

数据挖掘从入门到放弃:线性回归逻辑回归

一、理解线性回归模型 首先讲回归模型,回归模型研究是因变量(目标)自变量(预测器)之间关系,因变量可以是连续也可以离散,如果是离散就是分类问题。...+Θn*x+基本工资,预测y实际y_存有差距,策略函数就是使得m个特征集(真实y-预测平方最小。(差值可能是负数,所以采用平方); ?...按照对于正规方程求法,我们对θ 求偏导: ? 也就是,给定特征矩阵X因变量y,即可以求使误差率最小θ,满足后续回归模型。...三、逻辑回归模型 逻辑回归线性回归同属广义线性模型,逻辑回归是以线性回归为理论支持,是一个二分类模型,也可以推广多到分类问题,通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题,...数据分为训练数据测试数据,分别保存在kc_train.csvkc_test.csv两个文件中,其中训练数据主要包括10000条记录,14个字段:销售日期,销售价格,卧室数,浴室数,房屋面积,停车面积

39210
领券