首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用在数据科学上的 Python:你可能忘记的 8 个概念

Arange 函数,根据 start 和 stop 指定的范围以及 step 设定的步长,生成指定间隔的均匀间隔序列。...它根据 start 和 stop 指定的范围以及 num 设定的个数,生成指定个数的均匀间隔序列。...Join 函数合并两个 dataframe 的方法与 merge 函数类似。但是,它根据索引合并 dataframe,而不是某些指定。 ?...Apply 函数会对你指定的或行中每个元素作用一个函数。你可以想象到这是多么有用,尤其式当你对整个 DataFrame 进行归一化和元素值操作,而不必进行循环。...Pandas 内置的 pivot_table 函数可以将电子表格样式的数据透视表创建DataFrame。需要注意的是,数据透视表中的级别存储在创建DataFrame 层次索引和中。

1.2K10

时间序列的重采样和pandas的resample方法介绍

重采样的应用 重采样的应用十分广泛: 在财务分析中,股票价格或其他财务指标可能以不规则的间隔记录。重新可以将这些数据与交易策略的时间框架(如每日或每周)保持一致。...重新采样可以标准化分析数据,确保一致的时间间隔。 在创建时间序列可视化时,通常需要以不同的频率显示数据。重新采样够调整绘图中的细节水平。 许多机器学习模型都需要具有一致时间间隔的数据。...1、指定列名 默认情况下,Pandas的resample()方法使用Dataframe或Series的索引,这些索引应该是时间类型。但是,如果希望基于特定重新采样,则可以使用on参数。...2、指定开始和结束的时间间隔 closed参数允许重采样期间控制打开和关闭间隔。...3、输出结果控制 label参数可以在重采样期间控制输出结果的标签。默认情况下,一些频率使用组内的右边界作为输出标签,而其他频率使用左边界。

61830
您找到你想要的搜索结果了吗?
是的
没有找到

干货:4个小技巧助你搞定缺失、混乱的数据(附实例代码)

这是DataFrame对象的一个方法,将要估算的值作为唯一必须传入的参数。 查阅pandas文档中.fillna(...)的部分,了解可传入的其他参数。...数据规范化是让所有的值落在0到1的范围内(闭区间)。数据标准化是移动其分布,使得数据的平均数是0、标准差是1。 1. 准备 要实践本技巧,你要先装好pandas模块。 其他没有什么要准备的了。 2....怎么做 可以用下面的代码(data_binning.py文件)对数据分级(比如处理成直方图): # 根据线性划分的价格的范围创建价格的容器 bins = np.linspace( csv_read['...其他没有什么要准备的了。 2....columns参数指定了代码要处理的DataFrame(或某些,因为可以传入列表)。通过指定前缀,我们告诉方法生成的列名以d打头;本例中生成的会叫d_Condo。

1.5K30

python DataFrame数据生成

index也有索引columns,创建DataFrame的基本方法为df = pd.DataFrame(data, index=index,columns=columns),其中data参数的数据类型可以支持由列表...如下图所示,基本上可以把DataFrame看成是Excel的表格形态: ? 接下来我们根据创建DataFrame的基本要求将data、index、columns这三个参数准备就绪。...关于索引columns,我们将收盘价定义为“close”,涨跌幅定义为“price range”。...提供了强大的处理日期数据的功能,我们使用pandas.date_range()生成DatetimeIndex格式的日期序列,其中参数包括:起始时间start、结束时间end、时期数量periods、日期间隔频率...此处以ndarray组成的字典形式创建DataFrame,字典每个键所对应的ndarray数组分别成为DataFrame的一,共享同一个 index ,例程如下所示: df_stock = pd.DataFrame

2K20

Pandas库常用方法、函数集合

按照指定的行列重塑表格 pivot_table:数据透视表,类似excel中的透视表 cut:将一组数据分割成离散的区间,适合将数值进行分类 qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表...,用于计算两个或多个因子之间的频率 join:通过索引合并两个dataframe stack: 将数据框的“堆叠”为一个层次化的Series unstack: 将层次化的Series转换回数据框形式...sort_values: 对数据框按照指定进行排序 rename: 对或行进行重命名 drop: 删除指定的或行 数据可视化 pandas.DataFrame.plot.area:绘制堆积图 pandas.DataFrame.plot.bar...to_timedelta: 将输入转换为Timedelta类型 timedelta_range: 生成时间间隔范围 shift: 沿着时间轴将数据移动 resample: 对时间序列进行重新采样 asfreq...: 转换时区 dt: 用于访问Datetime中的属性 day_name, month_name: 获取日期的星期几和月份的名称 total_seconds: 计算时间间隔的总秒数 rolling: 用于滚动窗口的操作

25610

业界 | 用Python做数据科学时容易忘记的八个要点!

为了给读者带来福利,我还添加了视频和其他资源的链接,以便大家更深入地了解各个概念。...它们都有特定的用途,但在这里我们看中的是它们都输出Numpy数组(而非其使用范围),这通常更容易用于数据科学。 Arange在给定的范围内返回间隔均匀的值。...Linspace是在指定的范围内返回指定个数的间隔均匀的数字。所以给定一个起始值和终止值,并指定返回值的个数,linspace将根据你指定的个数在NumPy数组中划好等分。...Apply会根据你指定的内容向或行中的每个元素发送一个函数。你可以想象这是多么有用,特别是在对整个DataFrame处理格式或运算数值的时候,可以省去循环。 ? 透视表 最后要说到的是透视表。...Pandas内置的pivot_table函数将电子表格样式的数据透视表创建DataFrame

1.4K00

Pandas 学习手册中文第二版:11~15

创建一个新的DataFrame,其是在步骤 1 中标识的键的标签,然后是两个对象中的所有非键标签。 它与两个DataFrame对象的键中的值匹配。...从技术上讲,熔化是将DataFrame对象整形为 格式的过程,其中通过不旋转variable中的标签来创建两个或更多,分别称为variable和value ,然后将数据从这些移到value中的适当位置...可以使用periods参数在特定的日期和时间,特定的频率和特定的数范围创建范围。...数据通常是使用当地时间在全球范围内的不同系统中收集的,有时,它需要与在其他时区收集的数据进行协调。 幸运的是,Pandas 为使用不同时区的时间戳提供了丰富的支持。...在这种情况下,Pandas 认为 0 到 4(最小和最大)的范围和 0.5 的间隔是合适的。 如果要使用其他位置,请通过将列表传递到plt.xticks()来提供它们。

3.3K20

panda python_12个很棒的Pandas和NumPy函数,让分析事半功倍

如果两个数组的项在公差范围内不相等,则返回False。这是检查两个数组是否相似的好方法,因为这一点实际很难手动实现。  ...给定一个间隔,该间隔以外的值都将被裁剪到间隔边缘。  ...具有行和标签的任意矩阵数据(同类型或异类)  观察/统计数据集的任何其他形式。实际上,数据根本不需要标记,即可放入Pandas数据结构。  ...以下是Pandas的优势:  轻松处理浮点数据和非浮点数据中的缺失数据(表示为NaN)  大小可变性:可以从DataFrame和更高维的对象中插入和删除  自动和显式的数据对齐:在计算中,可以将对象显式对齐到一组标签...,或者用户可以直接忽略标签,并让Series,DataFrame等自动对齐数据  强大灵活的分组功能,可对数据集执行拆分-应用-合并操作,以汇总和转换数据  轻松将其他Python和NumPy数据结构中的不规则的

5.1K00

独家 | 将时间信息编码用于机器学习模型的三种编码时间信息作为特征的三种方法

表格1:带有月份虚拟变量的 DataFrame 首先,我们从DatetimeIndex中提取了有关月份的信息(编码为 1 到 12范围内的整数)。...在下面的代码片段中,我们复制初始DataFrame,添加带有月份编号的,然后使用正弦/余弦变换对月份和 day_of_year 进行编码。接着,我们绘制两对曲线。...在我们的例子中,这是包含给定观察来自一年中哪一天的信息的。 输入的范围——在我们的例子中,范围是从 1 到 365。 如何处理我们将用于拟合估计器的 DataFrame 的剩余。...当然,在现实生活中情况并非如此,随着时间的推移,我们会在相同时期间遇到更多的可变性。然而,我们也会使用许多其他特征(例如,某种趋势或时间流逝的度量)来解释这些变化。...使用这些方法时,时间间隔的粒度对新创建的特征的形状非常重要。 使用径向基函数,我们可以决定要使用的函数数量以及钟形曲线的宽度。

1.7K30

Pandas DateTime 超强总结

Output: Start Time: 2021-01-01 00:00:00 End Time: 2021-12-31 23:59:59.999999999 要创建每月期间,可以将特定月份传递给它...下面的代码创建了一个代表 2022 年 1 月 1 日期间期间对象: day = pd.Period('2022-01', freq='D') display(day) print('Start Time...所以我们可以使用所有适用于 Timestamp 对象的方法和属性 创建时间序列数据框 首先,让我们通过从 CSV 文件中读取数据来创建一个 DataFrame,该文件包含与连续 34 天每小时记录的 50...DataFrame,其中 datetime 的数据类型是 DateTime 对象 下面让我们对 datetime 应用一些基本方法 首先,让我们看看如何在 DataFrame 中返回最早和最晚的日期...行,我们可以创建一个布尔掩码并使用 .loc 方法过滤特定日期范围内的行: mask = (df.datetime >= pd.Timestamp('2019-03-06')) & (df.datetime

5.4K20

用Python也能进军金融领域?这有一份股票交易策略开发指南

您可以在aapl DataFrame创建一个新的叫做diff的存储结果,然后使用del再次删除它。...在您的空signals DataFrame创建一个名为signal的,并将其行全都初始化为0.0。 在准备工作之后,是时候在各自的长短时间窗口中创建一组短和长的简单移动平均线了。...在计算了短期和长期窗口的平均值后,当短移动平均线跨过长移动平均线时,您应该创建一个信号,但只能在该周期大于最短移动平均窗口期间创建信号。...请注意,您添加[short_window:]用以满足条件“只能在大于最短移动平均窗口期间”。当条件为真时,初始化为0.0的signal将被1.0覆盖。一个“信号”被创建了!...你再一次地从另外的DataFrame复制索引(index)。在此处,是signals DataFrame。因为你想要考虑生成信号的时间范围

2.9K40

一文入门数分三剑客--Numpy、Pandas、Matplotlib

8,9),(10,11),(12,13)]) print(a[0:2,1]) Output: [9 11] 正如上面的代码中展示的,只有 9 和 11 被打印出来了 linspace 这个函数返回指定间隔内均匀间隔的数字...以形成单个 DataFrame 让我们实际实现一下,首先我们将创建三个 DataFrame,其中包含一些键值对,然后将这些 DataFrame 合并在一起 import pandas as pd df1...接下来,我们还可以指定 axis=1 以便沿连接、合并或串联 df1 = pd.DataFrame({"HPI":[80,90,70,60],"Int_Rate":[2,1,2,3], "IND_GDP...columns=['2010','2011']) db= sd.diff(axis=1) db.plot(kind="bar") plt.show() 通过上图可以看出,在 2010 年至 2011 年期间...现在,bin 指的是划分为一系列区间的值范围,通常创建的 bin 大小相同,在下面的代码中,我以 10 的间隔创建了 bin,这就说明第一个 bin 包含从 0 到 9 的元素,然后是 10 到 19,

2.4K20

Python 数据处理

Matplotlib:Python中强大的绘图工具 Numpy Numpy快速入门教程可参考:Numpy tutorial Numpy属性 ndarray.ndim:维度 ndarray.shape:行数和数...创建数据 zeors(shape, dtype=float):创建全为0的数据 ones(shape, dtype=None):创建全为1的数据 empty(shape, dtype=float):创建没有初始化的数据...arange([start, ]stop, [step, ]dtype=None):创建固定间隔的数据段 linspace(start, stop, num=50, dtype=None):在给定的范围...A.dot(B) 其他:+=、-+、sin、cos、exp Numpy索引 数组索引方式:A[1, 1] 切片:A[1, 1:3] 迭代:for item in A.flat Numpy其他 reshape...NaN 4 6.0 5 8.0 dtype: float64 DataFrame:是一个表格型的数据结构,既有行索引也有索引, 它可以被看做由Series组成的大字典。

1.5K20
领券