首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

我们可以用多种不同方式构建一个DataFrame,但对于少量值,通常将其指定为 Python 字典会很方便,其中键是列名,值是数据。...读取外部数据 Excel 和 pandas 都可以各种来源以各种格式导入数据。 CSV 让我们 Pandas 测试中加载并显示提示数据集,这是一个 CSV 文件。...在 Pandas 中,您使用特殊方法/向 Excel 文件读取和写入。 让我们首先基于上面示例中数据创建一个 Excel 文件。 tips.to_excel("....pandas 通过在 DataFrame 中指定单个系列来提供矢量化操作。可以以相同方式分配列。DataFrame.drop() 方法 DataFrame 中删除一列。...填充柄 在一组特定单元格中按照设定模式创建一系列数字。在电子表格中,这将在输入第一个数字后通过 shift+drag 或通过输入前两个或三个值然后拖动来完成。

19.5K20

初学者使用Pandas特征工程

建议全面执行EDA主要原因之一是,我们可以对数据创建特征范围有适当了解。 特征工程主要有两个原因: 根据机器学习算法要求准备和处理可用数据。大多数机器学习算法与分类数据不兼容。...用于文本提取apply() pandasapply() 函数允许在pandas系列上传递函数并将其传递到变量每个点。 它接受一个函数作为参数,然后将其应用于数据行或列。...在我们大卖场销售数据中,我们有一个Item_Identifier列,它是每个产品唯一产品ID。此变量两个字母具有三种不同类型,即DR,FD和NC,分别代表饮料,食品和非消耗品。...它取决于问题陈述和日期时间变量(每天,每周或每月数据频率来决定要创建变量。 尾注 那就是pandas力量;仅用几行代码,我们就创建不同类型变量,可以将模型性能提升到另一个层次。...没有传统方式或类型可以创建特征,但是pandas具有多种函数,可以使你工作更加舒适。 我强烈建议你选择任何数据集,并自行尝试所有列出技术,并在下面评论多少以及哪种方法对你帮助最大。

4.8K31
您找到你想要的搜索结果了吗?
是的
没有找到

地理空间数据时间序列分析

较亮像素具有较高降雨值。在下一节中,我将提取这些值并将它们转换为pandas数据光栅文件中提取数据 现在进入关键步骤——提取每个366个光栅图像像素值。...然而,对于高分辨率数据集,这可能需要大量计算资源。 因此,我们刚刚创建两个列表,一个存储文件名中日期,另一个存储降雨数据。...转换为时间序列数据pandas中,将列表转换为数据框格式是一项简单任务: # convert lists to a dataframe df = pd.DataFrame(zip(date, rainfall_mm...), columns = ['date', 'rainfall_mm']) df.head() 现在我们有了一个pandas数据,但请注意,“日期”列中值是字符串,pandas尚不知道它代表日期...将日期列设置为索引也是一个好主意。这有助于按不同日期日期范围切片和过滤数据,并使绘图任务变得容易。我们首先将日期排序到正确顺序,然后将该列设置为索引。

11410

Pandas Merge函数详解

在日常工作中,我们可能会多个数据集中获取数据,并且希望合并两个或多个不同数据集。这时就可以使用Pandas包中Merge函数。...pd.merge(customer, order) 默认情况下,merge函数是这样工作: 将按列合并,并尝试两个数据集中找到公共列,使用来自两个DataFrame(内连接)列值之间交集。...但是如果两个DataFrame都包含两个或多个具有相同名称列,则这个参数就很重要。 我们来创建一个包含两个相似列数据。...indicator=True参数,将创建_merge列。在上面的结果中,可以看到两个值都表明该行来自DataFrame和left_only交集,其中该行来自第一个DataFrame(左侧)。...如果在正确DataFrame中有多个重复键,则只有最后一行用于合并过程。例如将更改delivery_date数据,使其具有多个不同产品“2014-07-06”值。

23730

Pandas 2.2 中文官方教程和指南(四)

查看如何现有列创建列。 过滤 在 Excel 中,过滤是通过图形菜单完成数据可以通过多种方式进行过滤;其中最直观是使用布尔索引。...传递给数据,返回所有具有True��。...在 pandas 中,您使用特殊方法来读取和写入 Excel 文件。 首先,基于上面示例中 tips 数据,让我们创建一个 Excel 文件: tips.to_excel("....在 pandas 中,您使用特殊方法来读取和写入 Excel 文件。 首先,基于上面示例中 tips 数据,让我们创建一个 Excel 文件: tips.to_excel("....pandas DataFrame 具有 merge() 方法,提供类似的功能。数据不需要提前排序,不同连接类型通过 how 关键字实现。

18910

没错,这篇文章教你妙用Pandas轻松处理大规模数据

在这篇文章中,我们将介绍 Pandas 内存使用情况,以及如何通过为数据(dataframe)中列(column)选择适当数据类型,将数据内存占用量减少近 90%。...数据内部表示 在底层,Pandas 按照数据类型将列分成不同块(blocks)。这是 Pandas 如何存储数据前十二列预览。 你会注意到这些数据块不会保留对列名引用。...让我们创建一个原始数据副本,然后分配这些优化后数字列代替原始数据,并查看现在内存使用情况。 虽然我们大大减少了数字列内存使用量,但是整体来看,我们只是将数据内存使用量降低了 7%。...我们将使用 pandas.to_datetime() 函数进行转换,并使用 format 参数日期数据按照 YYYY-MM-DD 格式存储。 ‍‍‍‍‍‍...现在,我们可以使用字典、以及几个日期参数,通过几行代码,以正确类型读取日期数据

3.6K40

NumPy 秘籍中文第二版:十、Scikits 乐趣

最后,将打印相关性,并显示一个图: 要创建数据,请创建一个包含股票代码作为键字典,并将相应日志作为值返回。...DataSet对象具有名为exog属性,当作为 Pandas 对象加载时,该属性将成为具有多个列DataFrame对象。 在我们案例中,它还有一个endog属性,其中包含世界铜消费量值。...我们将通过创建 Pandas DataFrame并调用其resample() 方法来做到这一点: 在创建 Pandas DataFrame之前,我们需要创建一个DatetimeIndex对象传递给DataFrame...根据下载报价数据创建索引,如下所示: dt_idx = pandas.DatetimeIndex(quotes.date) 获得日期时间索引后,我们将其与收盘价一起使用以创建数据: df = pandas.DataFrame...然后,该索引用于创建 Pandas DataFrame。 然后,我们对时间序列数据进行了重新采样。

3K20

Python中Pandas相关操作

2.DataFrame数据):DataFramePandas库中二维表格数据结构,类似于电子表格或SQL中表。它由行和列组成,每列可以包含不同数据类型。...DataFrame可以各种数据源中创建,如CSV文件、Excel文件、数据库等。 3.Index(索引):索引是Pandas中用于标识和访问数据标签。它可以是整数、字符串或其他数据类型。...可以使用标签、位置、条件等方法来选择特定行和列。 5.缺失数据处理:Pandas具有处理缺失数据功能,可以检测、删除或替换数据缺失值。...9.时间序列数据处理:Pandas对处理时间序列数据提供了广泛支持,包括日期范围生成、时间戳索引、重采样等操作。...常用操作 创建DataFrame import pandas as pd # 创建一个空DataFrame df = pd.DataFrame() # 列表创建DataFrame data =

24330

Pandas库常用方法、函数集合

,适合将数值进行分类 qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间频率 join:通过索引合并两个dataframe stack: 将数据列...“堆叠”为一个层次化Series unstack: 将层次化Series转换回数据形式 append: 将一行或多行数据追加到数据末尾 分组 聚合 转换 过滤 groupby:按照指定列或多个列对数据进行分组...: 替换字符串中特定字符 astype: 将一列数据类型转换为指定类型 sort_values: 对数据按照指定列进行排序 rename: 对列或行进行重命名 drop: 删除指定列或行 数据可视化...、趋势和季节性 pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征数据集中各个样本之间关系 pandas.plotting.scatter_matrix...:绘制散点矩阵图 pandas.plotting.table:绘制表格形式可视化图 日期时间 to_datetime: 将输入转换为Datetime类型 date_range: 生成日期范围 to_timedelta

25110

Python 算法交易秘籍(一)

pandas库有一个pandas.DataFrame类,对于处理和操作这样数据很有用。这个示例创建这些对象开始。...在步骤 3中,通过直接调用构造函数并将time_series_data作为参数创建一个 pandas DataFrame对象,并将返回数据分配给df。字典键成为df列名,值成为数据。...你通过传递columns参数以字符串列表形式传递所需顺序列名。 反转:在步骤 3 中,你通过以一种特殊方式使用索引运算符[::-1]df创建一个DataFrame,其中行被反转。...您使用pandas.concat()函数通过垂直连接dt和df_new来创建一个DataFrame。这意味着将创建一个DataFrame,其中df_new行附加在df行下面。...您将包含df和df_new列表作为参数传递给pandas.concat()函数。另外,为了创建一个0开始索引,您使用了reset_index()方法,并将参数 drop 传递为True。

65950

Pandas 2.2 中文官方教程和指南(十·二)

此外,在第一次附加/放置操作之后,您不能更改数据列(也不能更改索引列)(当然,您可以简单地读取数据创建表!)。...当你将这个文件加载到DataFrame中时,这将创建一个只包含两个预期列a和b Parquet 文件。...然而,最终存储在数据库中数据取决于所使用数据库系统支持日期时间数据类型。 下表列出了一些常见数据库支持日期时间数据类型。其他数据库方言可能有不同日期时间数据类型。...,如果要将多个文本列解析为单个日期列,则会在数据前添加一个列。...`read_fwf`函数参数与`read_csv`基本相同,但有两个额外参数,并且`delimiter`参数使用方式不同: + `colspecs`:一个对给出每行固定宽度字段范围一半开放区间

13500

利用query()与eval()优化pandas代码

简介 利用pandas进行数据分析过程,不仅仅是计算出结果那么简单,很多初学者喜欢在计算过程中创建一堆命名「随心所欲」中间变量,一方面使得代码读起来费劲,另一方面越多不必要中间变量意味着越高内存占用...TV」 ❞ 图3 通过比较可以发现在使用query()时我们在不需要重复书写数据名称[字段名]这样内容,字段名也直接可以当作变量使用,而且不同条件之间不需要用括号隔开,在条件繁杂时候简化代码效果更为明显...: 「常规index」 对于只具有单列Index数据,直接在表达式中使用index: # 找出索引列中包含king记录,忽略大小写 netflix.set_index('title').query...而pandaseval()有两种,一种是top-level级别的eval()函数,而另一种是针对数据DataFrame.eval(),我们接下来要介绍是后者,其与query()有很多相同之处,...策略之后无法被解析日期会填充pd.NAT,而缺失值之间是无法进行相等比较: # 利用assign进行新增字段计算并保存为数据 result1 = netflix.assign(years_to_now

1.5K30

数据科学学习手札92)利用query()与eval()优化pandas代码

图3   通过比较可以发现在使用query()时我们在不需要重复书写数据名称[字段名]这样内容,字段名也直接可以当作变量使用,而且不同条件之间不需要用括号隔开,在条件繁杂时候简化代码效果更为明显...图9 2.6 对Index与MultiIndex支持   除了对常规字段进行条件筛选,query()还支持对数据自身index进行条件筛选,具体可分为三种情况: 常规index   对于只具有单列...而pandaseval()有两种,一种是top-level级别的eval()函数,而另一种是针对数据DataFrame.eval(),我们接下来要介绍是后者,其与query()有很多相同之处,...策略之后无法被解析日期会填充pd.NAT,而缺失值之间是无法进行相等比较: # 利用assign进行新增字段计算并保存为数据 result1 = netflix.assign(years_to_now...图13   虽然assign()已经算是pandas中简化代码很好用API了,但面对eval(),还是逊色不少 DataFrame.eval()通过传入多行表达式,每行作为独立赋值语句,其中对应前面数据数据字段可以像

1.7K20

从小白到大师,这里有一份Pandas入门指南

在内部,Pandas数据存储为不同类型 numpy 数组(比如一个 float64 矩阵,一个 int32 矩阵)。 有两种可以大幅降低内存消耗方法。...索引 Pandas 是强大,但也需要付出一些代价。当你加载 DataFrame 时,它会创建索引并将数据存储在 numpy 数组中。这是什么意思?...如果需要手动构建(比如使用循环),那就要考虑其他数据结构了(比如字典、列表等),在准备好所有数据后,创建 DataFrame。...否则,对于 DataFrame每一个行,Pandas 都会更新索引,这可不是简单哈希映射。...在这些例子中,输出都是一样:有两个指标(国家和年份) MultiIndex DataFrame,还有包含排序后 10 个最大值列 suicides_sum。

1.7K30

从小白到大师,这里有一份Pandas入门指南

在内部,Pandas数据存储为不同类型 numpy 数组(比如一个 float64 矩阵,一个 int32 矩阵)。 有两种可以大幅降低内存消耗方法。...索引 Pandas 是强大,但也需要付出一些代价。当你加载 DataFrame 时,它会创建索引并将数据存储在 numpy 数组中。这是什么意思?...如果需要手动构建(比如使用循环),那就要考虑其他数据结构了(比如字典、列表等),在准备好所有数据后,创建 DataFrame。...否则,对于 DataFrame每一个行,Pandas 都会更新索引,这可不是简单哈希映射。...在这些例子中,输出都是一样:有两个指标(国家和年份) MultiIndex DataFrame,还有包含排序后 10 个最大值列 suicides_sum。

1.8K11

从小白到大师,这里有一份Pandas入门指南

在内部,Pandas数据存储为不同类型 numpy 数组(比如一个 float64 矩阵,一个 int32 矩阵)。 有两种可以大幅降低内存消耗方法。...索引 Pandas 是强大,但也需要付出一些代价。当你加载 DataFrame 时,它会创建索引并将数据存储在 numpy 数组中。这是什么意思?...如果需要手动构建(比如使用循环),那就要考虑其他数据结构了(比如字典、列表等),在准备好所有数据后,创建 DataFrame。...否则,对于 DataFrame每一个行,Pandas 都会更新索引,这可不是简单哈希映射。...在这些例子中,输出都是一样:有两个指标(国家和年份) MultiIndex DataFrame,还有包含排序后 10 个最大值列 suicides_sum。

1.7K30

Pandas最详细教程来了!

Pandas具有NumPyndarray所不具有的很多功能,比如集成时间序列、按轴对齐数据、处理缺失数据等常用功能。Pandas最初是针对金融分析而开发,所以很适合用于量化投资。...惯例是将pandas简写为pd,命令如下: import pandas as pd Pandas包含两个主要数据结构:Series和DataFrame。...但在使用时候,往往是将列索引作为区分不同数据标签。DataFrame数据结构与SQL数据表或者Excel工作表结构非常类似,可以很方便地互相转换。...这里索引是显式指定。如果没有指定,会自动生成0开始数字索引。 列标签,表头A、B、C就是标签部分,代表了每一列名称。 下文列出了DataFrame函数常用参数。...▲图3-3 如果某列不存在,为其赋值,会创建一个列。我们可以用这种方法来添加一个列: df['D']=10 df 运行结果如图3-4所示。 ?

3.2K11

数据科学学习手札68)pandascategorical类型及应用

2、对于DataFrame,在定义数据之后转换类型: #创建数据 df_cat = pd.DataFrame({ 'V1':['A','C','B','D'] }) #转换指定列数据类型为category...而pd.Categorical()独立创建categorical数据时有两个特性,一是其通过参数categories定义类别时,若原数据中出现了categories参数中没有的数据,则会自动转换为pd.nan...4、利用pandas.api.types中CategoricalDtype()对已有数据进行转换   通过CategoricalDtype(),我们可以结合astype()完成其他类型数据向categorical...#创建数据 df_cat = pd.DataFrame({ 'V1':['A','C','B','D'] }) cat = CategoricalDtype(categories=['A',...2.3 应用   categorical型数据主要应用于自定义排序,如下例,我们创建了一个包含字符型变量class和数值型变量value数据: import numpy as np df = pd.DataFrame

1.2K20
领券