首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用Python也能进军金融领域?这有一份股票交易策略开发指南

您可以Pandas帮助下轻松执行这项算术运算;只需将aapl数据Close减去Open。或者说,aapl.Close减去aapl.Open。...您可以aapl DataFrame创建一个叫做diff存储结果,然后使用del再次删除它。...回归中值策略基本上表明股票回归中值,而配对交易策略拓展了这一点,并指出如果两个股票相关性相对较高,如果其中一个另一个移动相关,则可以使用两个股票价格差异变化表示交易事件。...取而代之是,你将在下面看到如何开始创建一个可以生产订单并管理损益投资组合: 首先,你将创建一个initial_capital 变量来设置初始资本DataFrame positions。...接下来,你DataFrame创建了一个名为AAPL信号为1时候,短移动平均线跨越长移动平均线(大于最短移动平均窗口),你将购买100股。

2.9K40

Pandas 学习手册中文第二版:11~15

合并通过一个或多个或行索引查找匹配来合并两个 Pandas 对象数据。 然后,基于应用于这些类似关系数据库连接语义,它返回一个对象,该对象代表来自两者数据组合。...它创建一个DataFrame,其步骤 1 中标识标签,然后是两个对象所有非键标签。 它与两个DataFrame对象匹配。...然后,Pandas 结果为两个对象每一创建,然后复制。...转换一般过程 GroupBy对象.transform()方法将一个函数应用于数据帧每个,并返回另一个具有以下特征DataFrame: 它索引所有索引连接相同 行数等于所有行数之和...介绍了拆分应用组合模式,并概述了如何Pandas 实现这种模式。 然后,我们学习了如何基于和索引级别数据将数据分为几组。 然后,我们研究了如何使用聚合函数和转换来处理每个组数据。

3.3K20
您找到你想要的搜索结果了吗?
是的
没有找到

一个数据集全方位解读pandas

使用索引 使用.loc.iloc 查询数据集 分类和汇总数据 对进行操作 指定数据类型 数据清洗 数据可视化 一、安装数据介绍 pandas安装建议直接安装anaconda,会预置安装好所有数据分析相关包...我们知道Series对象几种方面列表和字典相似之处。也就意味着我们可以使用索引运算符。现在我们来说明如何使用两种特定于pandas访问方法:.loc和.iloc。...五、查询数据集 现在我们已经了解了如何根据索引访问大型数据集子集。现在,我们继续基于数据集选择行以查询数据。例如,我们可以创建一个DataFrame仅包含2010年之后打过比赛。...接下来要说如何在数据分析过程不同阶段操作数据集。...我们可以初始数据清理阶段添加或删除,也可以稍后基于分析见解来添加和删除

7.4K20

Python 数据处理:Pandas使用

和 Series 之间运算 2.9 函数应用和映射 2.10 排序和排名 2.11 带有重复标签轴索引 3.汇总和计算描述统计 3.1 相关系数协方差 3.2 唯一计数以及成员资格 ---...- Pandas基于 NumPy 数组构建,特别是基于数组函数和不使用 for 循环数据处理。...---- 2.基本功能 2.1 重新索引 Pandas对象一个重要方法是reindex,其作用是创建一个对象,它数据符合索引。...无论如何计算相关系数之前,所有的数据项都会按标签对齐。 ---- 3.2 唯一计数以及成员资格 还有一类方法可以从一维Series抽取信息。...apply函数,就会出现: result = data.apply(pd.value_counts).fillna(0) print(result) 这里,结果行标签是所有唯一

22.7K10

Pandas 学习手册中文第二版:1~5

Series Pandas 常见用法是表示将日期/时间索引标签相关时间序列。...对齐基于索引标签提供多个序列对象相关自动关联。 使用标准过程技术,可以多个集合节省很多容易出错工作量匹配数据。 为了演示对齐,让我们举一个两个Series对象添加值示例。...我们将研究技术如下: 使用 NumPy 函数结果 使用包含列表或 Pandas Series对象 Python 字典数据 使用 CSV 文件数据 检查所有这些内容时,我们还将检查如何指定列名...由于创建时未指定索引,因此 Pandas 创建了一个基于RangeIndex标签,标签开头为 0。 数据第二,由1至5组成。 数据列上方0是该名称。...如果需要一个带有附加数据帧(保持原来不变),则可以使用pd.concat()函数。 此函数创建一个数据帧,其中所有指定DataFrame对象均按规范顺序连接在一起。

8.1K10

初学者使用Pandas特征工程

估算这些缺失超出了我们讨论范围,我们将只关注使用pandas函数来设计一些特性。 用于标签编码replace() pandasreplace函数动态地将当前替换为给定。...在此,每个二进制1表示该子类别在原始Outlet_Type存在。 用于分箱cut() 和qcut() 分箱是一种将连续变量组合到n个箱技术。...这就是我们如何创建多个方式。执行这种类型特征工程时要小心,因为使用目标变量创建特征时,模型可能会出现偏差。...但是,并非每个变量都对模型有用,使用所有变量都意味着增加尺寸,甚至向模型馈入噪声。因此,仅提取数据问题相关那些变量至关重要。 现在我们有了可以提取哪些变量想法,剩下唯一事情就是提取这些特征。...它取决于问题陈述和日期时间变量(每天,每周或每月数据)频率来决定要创建变量。 尾注 那就是pandas力量;仅用几行代码,我们就创建了不同类型变量,可以将模型性能提升到另一个层次。

4.8K31

Python科学计算之Pandas

如果你仔细查看其他人使用Pandas代码,你会发现这条导入语句。 Pandas数据类型 Pandas基于两种数据类型:seriesdataframe。...这一语句返回1990年代所有条目。 ? 索引 前几部分为我们展示了如何通过操作来获得数据。实际上,Pandas同样有标签化行操作。这些行标签可以是数字或是其他标签。...这将会给’water_year’一个索引。注意到列名虽然只有一个元素,却实际上需要包含于一个列表。如果你想要多个索引,你可以简单地列表增加另一个列名。 ?...对数据集应用函数 有时候你会想以某些方式改变或是操作你数据集中数据。例如,如果你有一年份数据而你希望创建一个显示这些年份所对应年代。...Pandas对此给出了两个非常有用函数,apply和applymap。 ? 这会创建一个名为‘year‘。这一是由’water_year’所导出。它获取是主年份。

2.9K00

Pandas 学习手册中文第二版:6~10

总结 本章,我们更深入地研究了 Pandas 中使用索引来组织和检索数据。 我们研究了许多有用索引类型,以及它们如何不同类型数据一起使用以有效访问而无需查询行数据。...本章,我们将学习有关类别法以下内容: 创建类别 重命名类别 追加类别 删除类别 删除未使用类别 设置类别 描述性统计 计数 最小,最大和众数 如何使用类别根据学生数字等级为学生分配字母等级...用其他(甚至另一种类型数据)明确替换某些 应用方法来基于算法转换 只需删除多余和行 我们已经了解了如何使用几种技术删除行和,因此在此不再赘述。...将函数应用于DataFrame时,默认为将方法应用于每一Pandas 遍历所有,并将每个列作为Series传递给您函数。...第一步将ab相乘,并创建一个名为interim

2.2K20

Scikit-Learn教程:棒球分析 (一)

如果消除具有少量空行,则会丢失超过百分之五数据。由于您正在尝试预测胜利,因此得分和允许运行目标高度相关。您希望这些数据非常准确。...1950数字不太可能与模型推断其他数据具有相同关系。 您可以通过创建基于yearID标记数据变量来避免这些问题。...添加新功能 现在您已经对分数趋势有了更好了解,您可以创建变量来指示每行数据所基于特定时代yearID。您将按照创建win_bins时相同过程进行操作。...Pandas通过将R除以G创建创建时,这非常简单R_per_game。 现在通过制作几个散点图来查看两个变量每一个如何目标获胜相关联。...进入任何机器学习模型之前,了解每个变量如何目标变量相关联可能很有用。Pandas用这种corr()方法使这很容易。

3.4K20

直观地解释和可视化每个复杂DataFrame操作

操作数据帧可能很快会成为一项复杂任务,因此Pandas八种技术均提供了说明,可视化,代码和技巧来记住如何做。 ?...每种方法都将包括说明,可视化,代码以及记住它技巧。 Pivot 透视表将创建一个“透视表”,该透视表将数据现有投影为元素,包括索引,。...包含将转换为两:一用于变量(名称),另一用于(变量包含数字)。 ? 结果是ID(a,b,c)和(B,C)及其对应每种组合,以列表格式组织。...合并不是pandas功能,而是附加到DataFrame。始终假定合并所在DataFrame是“左表”,函数作为参数调用DataFrame是“右表”,并带有相应键。...请注意,concat是pandas函数,而不是DataFrame之一。因此,它接受要连接DataFrame列表。 如果一个DataFrame另一未包含,默认情况下将包含该,缺失列为NaN。

13.3K20

Pandas必会方法汇总,数据分析必备!

2 df.tail() 查询数据末尾5行 3 pandas.qcut() 基于秩或基于样本分位数将变量离散化为等大小桶 4 pandas.cut() 基于分位数离散化函数 5 pandas.date_range...将DataFrame转换为ndarray二维数组 2 .append(idx) 连接另一个Index对象,产生Index对象 3 .insert(loc,e) loc位置增加一个元素 4 .delete...DataFramecorrwith方法,可以计算其或行跟另一个Series或DataFrame之间相关系数。...举例:判断city是否为北京 df_inner['city'].isin(['beijing']) 七、分组方法 序号 方法 说明 1 DataFrame.groupby() 分组函数 2 pandas.cut...再将网页转换为表格时很有用 5 read_excel 从ExcelXLS或XLSXfile 读取表格数据 6 read_hdf 读取pandasHDF5文件 7 read_html 读取HTML文档所有表格

5.9K20

Pandas 秘籍:1~5

本章,您将学习如何从数据帧中选择一个数据,该数据将作为序列返回。 使用此一维对象可以轻松显示不同方法和运算符如何工作。 许多序列方法返回另一个序列作为输出。...通常,这些将从数据集中已有的先前创建Pandas 有几种不同方法可以向数据帧添加。 准备 在此秘籍,我们通过使用赋值影片数据集中创建,然后使用drop方法删除。...操作步骤 创建最简单方法是为其分配标量值。 将名称作为字符串放入索引运算符。 让我们电影数据集中创建has_seen以指示我们是否看过电影。 我们将为每个分配零。...如果仔细观察,您会发现步骤 3 输出缺少步骤 2 所有对象。其原因是对象缺少,而 pandas 不知道如何处理字符串缺失。 它会静默删除无法为其计算最小所有。...分析期间,可能首先需要找到一个数据组,该数据组单个包含最高n,然后从该子集中找到最低m基于不同

37.2K10

手把手 | 如何用Python做自动化特征工程

特征工程也称为特征创建,是从现有数据构建特征以训练机器学习模型过程。这个步骤可能比实际应用模型更重要,因为机器学习算法只从我们提供数据中学习,然而创建任务相关特征绝对是至关重要。...转换作用于单个表(从Python角度来看,表只是一个Pandas 数据框),它通过一个或多个现有的创建特征。 例如,如果我们有如下客户表。...一个例子是通过client_id对贷款loan表进行分组,并找到每个客户最大贷款额。 转换:单个表上对一或多执行操作。一个例子是一个表取两个之间差异或取一绝对。...虽然此过程会自动创建特征,但仍需要数据科学家来弄清楚如何处理所有这些特征。例如,如果我们目标是预测客户是否会偿还贷款,我们可以寻找指定结果最相关特征。...聚合就是将深度特征合成依次将特征基元堆叠 ,利用了跨表之间一对多关系,而转换是应用于单个表一个或多个函数,从多个表构建特征。

4.3K10

Pandas 秘籍:6~11

第 2 步创建一个函数,该函数从其所有减去传递序列第一个,然后将该结果除以第一个。 这将计算相对于第一个百分比损失(或收益)。 第 3 步,我们一个月内对一个人测试了此函数。...我们构建了一个函数,该函数计算两个 SAT 加权平均值和算术平均值以及每个组行数。 为了使apply创建多个,您必须返回一个序列。 索引用作结果数据帧列名。...它接受所有列名并转置它们,因此它们成为最里面的索引级别。 请注意,每个旧列名称仍如何通过每个状态配对来标记其原始。3 x 3数据帧中有 9 个原始,这些被转换为具有相同数量值单个序列。...由于两个数据帧索引相同,因此可以像第 7 步那样将一个数据帧分配给另一。 更多 从步骤 2 开始,完成此秘籍另一种方法是直接从sex_age中分配,而无需使用split方法。...在数据帧的当前结构,它无法基于单个绘制不同组。 但是,第 23 步显示了如何设置数据帧,以便 Pandas 可以直接绘制每个总统数据,而不会像这样循环。

33.8K10

Python探索性数据分析,这样才容易掌握

采用数据驱动方法可以验证以前提出断言/假设,并基于对数据彻底检查和操作开发见解。...预览了其他数据前五行之后,我们推断可能存在一个问题,即各个州数据集是如何存入。由于美国有 51 个州,ACT 2017 和 ACT 2018 “州”栏很可能有错误或重复。...为了比较州州之间 SAT 和 ACT 数据,我们需要确保每个州每个数据帧中都被平等地表示。这是一次创新机会来考虑如何在数据帧之间检索 “State” 、比较这些并显示结果。...这可能是乏味,这给了我们另一创建函数来节省时间好机会!我解决方案如下函数所示: ? 是时候让这些功能发挥作用了。首先让我们使用 fix_participation() 函数: ?...正相关变量,即零和正相关,表示一个变量随着另一个变量增加而增加。负相关变量,负1和0之间相关表示一个变量随着另一个变量增加而减少。

4.9K30

使用pandas-profiling对时间序列进行EDA

知道了这一点,就产生了一些后续问题:涉及污染物措施方面,有多少个地点可用?所有传感器是否同一时间跨度内收集相同数量数据?收集到措施时间和地点上是如何分布?...其中一些问题可以通过将所有测量值和位置时间进行比较热图回答,如下面的代码片段和图像所示: from pandas_profiling.visualisation.plot import timeseries_heatmap...深入了解时间序列指标 如果你已经使用 pandas-profiling,可能知道如何生成报告。...总之,这个警报是非常重要,因为它可以将帮助识别此类并相应地预处理时间序列。 时间序列季节性是另一种场景,其中数据定义周期内重复出现定期且可预测变化。...接下来,当切换该更多详细信息时(如上图所示),我们将看到一个带有自相关和偏自相关选项卡。 对于时间序列,自相关显示时间序列现值处与其先前关系。

1.2K20

数据导入预处理-第6章-01数据集成

例如,如何确定一个数据库“custom_id”另一个数据库“custome_number”是否表示同一实体。 实体识别单位不统一也会带来问题。...例如,重量属性一个系统采用公制,而在另一个系统却采用英制;价格属性不同地点采用不同货币单位。这些语义差异为数据集成带来许多问题。...2 基于Pandas实现数据集成 pandas内置了许多能轻松地合并数据函数方法,通过这些函数方法可以将Series类对象或DataFrame类对象进行符合各种逻辑关系合并操作,合并后生成一个整合...,类似于数据库右外连接操作;'outer’代表基于所有leftright键合并,类似于数据库全外连接操作。...重叠合并数据是一种并不常见操作,它主要将一组数据填充为另一组数据对应位置pandas可使用combine_first()方法实现重叠合并数据操作。

2.5K20

《利用Python进行数据分析·第2版》第5章 pandas入门5.1 pandas数据结构介绍5.2 基本功能5.3 汇总和计算描述统计5.4 总结

pandas基于NumPy数组构建,特别是基于数组函数和不使用for循环数据处理。...重新索引 pandas对象一个重要方法是reindex,其作用是创建一个对象,它数据符合索引。...方法,你可以计算其或行跟另一个Series或DataFrame之间相关系数。...无论如何计算相关系数之前,所有的数据项都会按标签对齐。 唯一计数以及成员资格 还有一类方法可以从一维Series抽取信息。...表5-9 唯一计数、成员资格方法 有时,你可能希望得到DataFrame多个相关一张柱状图。

5.9K70

Python数据分析-pandas库入门

Series数据结构 Series 是一种类似于一维数组对象,它由一组数据(各种 NumPy 数据类型)以及一组相关数据标签(即索引)组成。仅由一组数据即可产生最简单 Series。...代码示例: import pandas as pd obj = pd.Series([1,4,7,8,9]) obj Series 字符串表现形式为:索引左边,右边。...two', 'four','five']) frame2.debt = val frame2 为不存在赋值会创建出一个。...不可变可以使 Index 对象多个数据结构之间安全共享,代码示例: #pd.Index储存所有pandas对象轴标签 #不可变ndarray实现有序可切片集 labels = pd.Index(...库基本结构一些特性,如何创建 pandas 对象、指定 columns 和 index 创建 Series 和 DataFrame 对象、赋值操作、属性获取、索引对象等,这章介绍操作 Series

3.7K20
领券