首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

时间序列基础教程总结!

0 数据集 本教程包括两个数据集(后台回复“210321”可获取): Google Stocks Data:提供了长达十三年的股票数据。...另一个数据集也可以以同样的方法读入 1.2 数据预处理 股票数据并不存在缺失值,但是天气湿度数据却存在缺失值。使用参数为ffill的fillna()函数,用后一时刻的观测值进行填补。...通过div方法可以实现列与列的逐属性相除,这样就可以得到后一天和前一天的比率,用来观测数据每天的变化情况 google['Change'] = google.High.div(google.High.shift...但是由于谷歌和微软单个股票的价格差异过大,很难比较,所以使用时间序列的第一个值进行标准化(思考一下,使用第一个值进行标准化其实并不是特别鲁棒) normalized_google = google.High.div...下面代码是以90天为单位的时间窗对数据进行平滑的效果,可以发现平滑后的数据更加稳健。

77220

时间序列基础教程总结!

0 数据集 本教程包括两个数据集(后台回复“210321”可获取): Google Stocks Data:提供了长达十三年的股票数据。...另一个数据集也可以以同样的方法读入 1.2 数据预处理 股票数据并不存在缺失值,但是天气湿度数据却存在缺失值。使用参数为ffill的fillna()函数,用后一时刻的观测值进行填补。...通过div方法可以实现列与列的逐属性相除,这样就可以得到后一天和前一天的比率,用来观测数据每天的变化情况 google['Change'] = google.High.div(google.High.shift...但是由于谷歌和微软单个股票的价格差异过大,很难比较,所以使用时间序列的第一个值进行标准化(思考一下,使用第一个值进行标准化其实并不是特别鲁棒) normalized_google = google.High.div...下面代码是以90天为单位的时间窗对数据进行平滑的效果,可以发现平滑后的数据更加稳健。

82811
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    用可视化探索数据特征的N种姿势

    散点图探索相关性 散点图使用数据对象两个属性对值作为x和y坐标轴,每个数据对象都作为平面上对一个点绘制。...直方图探索分布 直方图是数值数据分布的精确图形表示。直方图通过将可能的值分散到箱中,并显示落入每个箱中到对象数,显示属性值到分布。 对于分类属性,每个值在一个箱中,如果值过多,则使用某种方法将值合并。...直方图 直方图是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式具体表现。...为三维图设置样式 x = dataset['Low'] y = dataset['High'] z = dataset['Adj Close'] # 创建画布 fig = plt.figure(figsize...皮尔逊相关系数为1.0表示变量对之间存在强的正线性关系,值-1.0表示强的负线性关系(零值表示无关系)。因此,可以寻找深红色和深蓝色框以进一步识别。

    2.1K20

    Pandas数据挖掘与分析

    ,能够简便的画图 独特的数据结构 为什么使用Pandas Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢?...major_axis - axis 1,它是每个数据帧(DataFrame)的索引(行)。 minor_axis - axis 2,它是每个数据帧(DataFrame)的列。...]) 通过字典数据创建 pd.Series({'red':100, ''blue':200, 'green': 500, 'yellow':1000}) series获取属性和值 index values...axis=1为行进行运算 定义一个对列,最大值-最小值的函数 In [35]: data[['open', 'close']].max() Out[35]: open 35.99 close.../data/test.csv", columns=['open'], index=False) HDF5 read_hdf与to_hdf HDF5文件的读取和存储需要指定一个键,值为要存储的DataFrame

    1.4K80

    .NET基础面试题整理

    (1).net用于代码编译和执行的集成托管环境,换句话,它管理应用程序运行的方方面面,包括首次运行的编译,为程序分配内存 存储数据和指令,对于应用程序授予或拒绝相应的权限,并启动管理应用程序的执行,剩余内存的在分配...当拼接两个字符串时,系统先是把两个字符串写入内存,接着删除原来的String对象,然后创建一个String对象,并读取内存中的数据赋给该对象。这一来二去的,耗了不少时间。...018 get与post提交的比较 Get:通过URL传递表单的值(默认),?...&,安全性低,传递比较小的数据。..., int high)//建堆过程 { //i为欲调整子树的根结点的索引号,j为这个结点的左孩子 int i = low, j =2* i +1;...) {//listTmp为临时存放空间,存放合并后的数据 List listTmp =new List(high - low +1); int i

    1.6K21

    MySQL 5.7 JSON 数据类型使用总结

    MySQL 支持RFC 7159定义的全部json 数据类型,具体的包含四种基本类型(strings, numbers, booleans, null)和两种结构化类型(objects and arrays...将 JSON 格式的字符串存储在字符串列中相比,该数据类型具有以下优势: 自动验证存储在 JSON列中的 JSON 文档。无效的文档会产生错误。 优化的存储格式。...数据类型的支持,我们一样可以通过varchar类型或者text等类型来保存这一格式的数据,但是,为什么还要专门增加这一数据格式的支持呢?...保证了JSON数据类型的强校验,JSON数据列会自动校验存入此列的内容是否符合JSON格式,非正常格式则报错,而varchar类型和text等类型本身是不存在这种机制的。...单个JSON文档的大小不能超过4G;单个KEY的大小不能超过两个字节,即64K JSON类型适合应用于不常更新的静态数据 对搜索较频繁的数据建议增加虚拟列并建立索引

    57710

    JVM运行时数据区域

    Java 虚拟机栈 每个 Java 方法在执行的同时会创建一个栈帧用于存储局部变量表、操作数栈、常量池引用等信息。...从方法调用直至执行完成的过程,就对应着一个栈帧在 Java 虚拟机栈中入栈和出栈的过程。 对于执行引擎来说,活动线程中,只有栈顶的栈帧是有效的,称为当前栈帧,这个栈帧所关联的方法称为当前方法。...可以通过 -Xms 和 -Xmx 两个虚拟机参数来指定一个程序的堆内存大小,第一个参数设置初始值,第二个参数设置最大值。 java -Xms1M -Xmx2M HackTheJava ?...(str1==str2);//false 这两种不同的创建方法是有差别的: 第一种方式是在常量池中获取对象("abcd" 属于字符串字面量,因此编译时期会在常量池中创建一个字符串对象), 第二种方式一共会创建两个字符串对象...两种浮点数类型的包装类Float,Double 并没有实现常量池技术。 valueOf() 方法的实现比较简单,就是先判断值是否在缓存池中,如果在的话就直接返回缓存池的内容。

    40240

    Python入门之数据处理——12种有用的Pandas技巧

    翻译:黄念 校对:王方思 小编和大伙一样正在学习Python,在实际数据操作中,列联表创建、缺失值填充、变量分箱、名义变量重新编码等技术都很实用,如果你对这些感兴趣,请看下文: ◆ ◆ ◆ 引言...例如,我们想获得一份完整的没有毕业并获得贷款的女性名单。这里可以使用布尔索引实现。你可以使用以下代码: ? ? # 2–Apply函数 Apply是一个常用函数,用于处理数据和创建新变量。...让我们基于其各自的众数填补出“性别”、“婚姻”和“自由职业”列的缺失值。 #首先导入函数来判断众数 ? 结果返回众数和其出现频次。请注意,众数可以是一个数组,因为高频的值可能有多个。...如温度可能被记录为“High(高)”“Medium(中)”“Low(低)”“H(高)”“low(低)”。在这里,无论是“High(高)”还是“H(高)”是指同一类。...解决这些问题的一个好方法是创建一个包括列名和类型的CSV文件。这样,我们就可以定义一个函数来读取文件,并指定每一列的数据类型。

    5K50

    Python 中的递归,你真的懂了吗?

    本质上讲: 在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。...查找的方法是拿low到high的正中间的值,我们假设是mid,来跟n相比,如果mid>n,说明我们要查找的n在前数组data_set的前半部,否则就在后半部。...,high,d):     mid = int((low+high)/2) # 找到列表中间的值     if low == high:         print("not find")        ...return     if d[mid] > n: # 列表中间值>n, 代数要找的数据在左边         print("go left:",low,high,d[mid])         b_search...(n,low,mid,d) # 去左边找     elif d[mid] 的数据在左边         print("go right:",low,high,d[mid])

    68920

    ML算法——线性回归随笔【机器学习】【六一创作】

    10、线性回归 10.1、理论部分 利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间的关系进行建模的方法。...date:日期 open:开盘价 high:最高价 close:收盘价 low:最低价 volume:成交量 price_change:价格变动 p_change:涨跌幅 ma5:5日均价 ma10:...trace = go.Ohlc(x=df.index, open=df['open'], high=df['high'], low=df['low'], close=df['close']) data...simple_ohlc') 线性回归部分 库 from sklearn.linear_model import LinearRegression from sklearn import preprocessing 创建新的列..., 包含预测值, 根据当前的数据预测5天以后的收盘价 num = 5 # 预测5天后的情况 df['label'] = df['close'].shift(-num) # 预测值 丢弃 label, price_change

    19940

    3.Go编程快速入门学习

    它有两种变体:一种指定low和high两个索引界限值的简单的形式,另一种是除了low和high索引界限值外还指定容量的完整的形式。...切片表达式中的low和high表示一个索引范围(左包含,右不包含),也就是下面代码中从数组a中选出1值的元素组成切片s,得到的切片长度=high-low,容量等于得到的切片的底层数组的容量。...常量索引必须是非负的,并且可以用int类型的值表示;对于数组或常量字符串,常量索引也必须在有效范围内。如果low和high两个指标都是常数,它们必须满足low high。...其容量为7 6.make() 方法构造切片 描述: 我们上面都是基于数组来创建的切片,如果需要动态的创建一个切片,我们就需要使用内置的make()函数,格式如下: 格式说明: make([]T, size...切片唯一合法的比较操作是和nil比较。 一个nil值的切片并没有底层数组,一个nil值的切片的长度和容量都是0。

    38730

    Go 复合类型之切片类型介绍

    前面的切片变量 nums 之所以可以存储下新追加的值,就是因为 Go 对其进行了动态扩容,也就是重新分配了其底层数组,从一个长度为 6 的数组变成了一个长为 12 的数组。...切片唯一合法的比较操作是和nil比较。 一个nil值的切片并没有底层数组,一个nil值的切片的长度和容量都是0。...它有两种变体:一种指定low和high两个索引界限值的简单的形式,另一种是除了low和high索引界限值外还指定容量的完整的形式。...切片表达式中的low和high表示一个索引范围(左包含,右不包含),也就是下面代码中从数组a中选出1值的元素组成切片s,得到的切片长度=high-low,容量等于得到的切片的底层数组的容量。...如果low和high两个指标都是常数,它们必须满足low high。如果索引在运行时超出范围,就会发生运行时panic。

    25520

    数据分析入门系列教程-股票走势预测分析

    股票作为金融体系的一员,其走势收到了多方面的影响,并不是能够通过一两个算法,一些参数就可以完美预测,这是基于此,才衍生出了进入量化这个学科,专门用来做金融方面的数据分析。...df 中已经保存了 000001 股票的数据,时间范围是从2017.05 到2019.11 查看特征 接下来我们看下数据各个列的含义 股票数据的特征 date:日期 open:开盘价 high:最高价...我们就以红框中的两天为例 绿色的代表当天使涨的,红色的代表当天使跌的; 而竖线的上下两端,就代表当天的最高价和最低价; 还有向左和向右的两条横线,向左的代表当天的开盘价,向右的代表当天的收盘价。...所以就需要在2019-10-29、2019-10-28增加一列,可以记为 label,其数值就是2019-11-05、2019-11-04的 close 值。...提取特征 因为价格变化和交易量都是可以通过数据中的其他值计算出来的,所以和 label 一起排除在训练特征之外 feature = df.drop(['label', 'price_change', '

    2K20

    Python中的时间序列数据可视化的完整指南

    我试图解释一些简单的方法和一些先进的技术。 数据集 如果您正在阅读本文以进行学习,则最好的方法是自己跟踪并运行所有代码。...绘制月平均数据将在很大程度上解决这个问题,而不是绘制每日数据。为此,我将使用已经为上面的条形图和框图准备的df_month数据集。...如果像“df.High.diff(2)”那样指定2,它将取‘High’列的第一个和第三个元素、第二个和第四个元素的差值,依此类推。 在数据中去除趋势是一种流行的方法。这种趋势不利于预测或建模。...第二个元素成为第一个和第二个元素的累积,第三个元素成为第一个、第二个和第三个元素的累积,以此类推。你也可以在上面使用聚合函数,比如平均值、中位数、标准差等等。...在这个演示中,我将导入一个日历包并使用pivot表函数来生成值。

    2.1K30

    系统性的学会 Pandas, 看这一篇就够了!

    1.2.1 Series Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。...通过已有数据创建 举例一: pd.DataFrame(np.random.randn(2,3)) 结果: 举例二:创建学生成绩表 使用np创建的数组显示方式,比较两者的区别。...', 'high', 'low']] # 推荐使用loc和iloc来获取的方式 data.loc[data.index[0:4], ['open', 'close', 'high', 'low']]...以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数...思路分析 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df 2、遍历每一部电影,temp_df中把分类出现的列的值置为1 3、求和 思路 下面接着看: 1、创建一个全为0的dataframe

    4.6K30

    系统性的学会 Pandas, 看这一篇就够了!

    1.2.1 Series Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。...通过已有数据创建 举例一: pd.DataFrame(np.random.randn(2,3)) 结果: 举例二:创建学生成绩表 使用np创建的数组显示方式,比较两者的区别。...', 'high', 'low']] # 推荐使用loc和iloc来获取的方式 data.loc[data.index[0:4], ['open', 'close', 'high', 'low']]...以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例 可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数...思路分析 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df 2、遍历每一部电影,temp_df中把分类出现的列的值置为1 3、求和 思路 下面接着看: 1、创建一个全为0的dataframe

    4.1K20

    面试题系列第3篇:Integer等号判断的内幕,你可能不知道?

    关于基础类型与引用类型的底层比较,可稍微延伸一下:对于“==”操作符号,JVM会根据其两边相互比较的操作数的类型,在编译时生成不同的指令: (1)对于boolean,byte、short、int、long...因为通过new和valueOf创建的是完全两个对象,那么针对题目中的C项,直接比较两个对象的引用肯定是不相等的,因此结果为false。但B项为什么为true呢?后面我们会讲到。...所以只要是用valueOf或者Integer直接赋值的方式创建的对象,其值小于127且大于-128的,无论对其进行==比较还是equals 比较,都是true。...,先比较类型是否一致,如果不一致,直接返回false;否则,再比较两者的值,相同则返回true。...(2)如果==两端都是包装类型(Integer),则不会自动拆箱,首先会面临缓存问题,即便在缓存范围内的数据还会再次面临创建方式的问题,因此强烈建议使用equals方法进行比较。

    64930
    领券