首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【Mark一下】46个常用 Pandas 方法速查表

数据与RDataFrame格式类似,都是一个二维数组。Series则是一个一维数组,类似于列表。数据Pandas中最常用数据组织方式和对象。...,因此都是Falseunique查看特定唯一In: print(data2['col2'].unique()) Out: ['a' 'b']查看col2唯一 注意 在上述查看方法,除了...例如可以dtype返回仅获取类型为bool。 3 数据切片和切块 数据切片和切块是使用不同或索引切分数据,实现从数据获取特定子集方式。...a或col3为True记录使用isin查找范围基于特定范围数据查找In: print(data2[data2['col1'].isin([1,2])]) Out: col1 col2...,默认计算方式为求均值 8 高级函数使用 Pandas能直接实现数据级别高级函数应用,而不用写循环遍历每条记录甚至每个后做计算,这种方式能极大提升计算效率,具体如表8所示: 表8 Pandas

4.7K20
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas速查卡-Python数据科学

) 所有唯一和计数 选择 df[col] 返回一维数组col df[[col1, col2]] 作为新数据返回 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...(col) 从一返回一组对象 df.groupby([col1,col2]) 返回一组对象 df.groupby(col1)[col2] 返回col2平均值,按col1分组...col2和col3平均值 df.groupby(col1).agg(np.mean) 查找每个唯一col1组所有平均值 data.apply(np.mean) 在每个列上应用函数 data.apply...df.describe() 数值汇总统计信息 df.mean() 返回所有平均值 df.corr() 查找数据之间相关性 df.count() 计算每个数据非空数量 df.max...() 查找每个最大 df.min() 查找最小 df.median() 查找中值 df.std() 查找每个标准差 点击“阅读原文”下载此速查卡打印版本 END.

9.2K80

pandas 入门2 :读取txt文件以及描述性分析

使用zip函数合并名称和出生数据集。 ? 我们基本上完成了创建数据集。我们现在将使用pandas库将此数据集导出到csv文件。 df将是一个 DataFrame对象。...现在让我们看看dataframe最后五个记录 ? 如果我们想给特定名称,我们将不得不传递另一个名为name参数。我们也可以省略header参数。 ?...[Names,Births]可以作为标题,类似于Excel电子表格或sql数据标题。 ? 准备数据 数据包括1880年婴儿姓名和出生人数。...我们已经知道有1,000条记录而且没有任何记录丢失(非空)。可以验证“名称”仍然只有五个唯一名称。 可以使用数据unique属性来查找“Names”所有唯一记录。 ?...由于每个姓名名称都有多个,因此需要汇总这些数据,因此只会出现一次宝贝名称。这意味着1000行需要变为5.我们可以通过使用groupby函数来完成此操作。 ?

2.7K30

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Pandas ,索引可以设置为一个(或多个)唯一,这就像在工作表中有一用作行标识符一样。与大多数电子表格不同,这些索引实际上可用于引用行。...在 Pandas ,您使用特殊方法/向 Excel 文件读取和写入。 让我们首先基于上面示例数据,创建一个新 Excel 文件。 tips.to_excel("....选择 在Excel电子表格,您可以通过以下方式选择所需: 隐藏; 删除; 引用从一个工作表到另一个工作表范围; 由于Excel电子表格通常在标题行命名,因此重命名列只需更改第一个单元格文本即可...; 如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找所有,而不仅仅是单个指定; 它支持更复杂连接操作; 其他注意事项 1....查找和替换 Excel 查找对话将您带到匹配单元格。在 Pandas ,这个操作一般是通过条件表达式一次对整个或 DataFrame 完成。

19.5K20

针对SAS用户:Python数据分析库pandas

读取UK_Accidents.csv文件开始。该文件包括2015年1月1日到2015年12月31日中国香港车辆事故数据。.csv文件位于这里。 一年每一天都有很多报告, 其中大多是整数。...另一个.CSV文件在这里,将映射到描述性标签。 读.csv文件 在下面的示例中使用默认pandas为许多读者提供控制缺失、日期解析、跳行、数据类型映射等参数。...PROC PRINT输出在此处不显示。 下面的单元格显示范围输出。列表类似于PROC PRINTVAR。注意此语法双方括号。这个例子展示了按标签切片。按行切片也可以。...与上面的Python for循环示例一样,变量time是唯一有缺失变量。 ? 用于检测缺失另一种方法是通过对链接属性.isnull().any()使用axis=1参数逐进行搜索。 ? ?...备忘单:Mark Graphpandas DataFrame对象,并且位于爱达荷大学网站。 使用pandas 0.19.1文档处理缺失数据

12.1K20

没错,这篇文章教你妙用Pandas轻松处理大规模数据

在这篇文章,我们将介绍 Pandas 内存使用情况,以及如何通过为数据(dataframe)(column)选择适当数据类型,将数据内存占用量减少近 90%。...让我们创建一个原始数据副本,然后分配这些优化后数字代替原始数据,并查看现在内存使用情况。 虽然我们大大减少了数字内存使用量,但是整体来看,我们只是将数据内存使用量降低了 7%。...你可以看到,每个唯一都被分配了一个整数,并且该底层数据类型现在是 int8。该没有任何缺失,如果有的话,这个 category 子类型会将缺省设置为 -1。...当对象少于 50% 唯一对象时,我们应该坚持使用 category 类型。但是如果这一中所有的都是唯一,那么 category 类型最终将占用更多内存。...我们将编写一个循环程序,遍历每个对象,检查其唯一数量是否小于 50%。如果是,那么我们就将这一转换为 category 类型。

3.6K40

数据分析】数据缺失影响模型效果?是时候需要missingno工具包来帮你了!

条形图 条形图提供了一个简单绘图,其中每个条形图表示数据。条形图高度表示该完整程度,即存在多少个非空。...这是在条形图中确定,但附加好处是您可以「查看丢失数据数据分布情况」。 绘图右侧是一个迷你图,范围左侧0到右侧数据数。上图为特写镜头。...接近正1表示一存在空另一存在空相关。 接近负1表示一存在空另一存在空是反相关。换句话说,当一存在空时,另一存在数据,反之亦然。...接近0表示一另一之间几乎没有关系。 有许多值显示为<-1。这表明相关性非常接近100%负。...RMED位于同一个较大分支,这表明该存在一些缺失可以与这四相关联。 摘要 在应用机器学习之前识别缺失是数据质量工作一个关键组成部分。

4.7K30

从小白到大师,这里有一份Pandas入门指南

有一些获得这些信息方法: 可以用 unique() 和 nunique() 获取唯一(或唯一数量); >>> df['generation'].unique() array(['Generation...(例如最小、最大、平均值、总数等),如果指定 include='all',会针对每一目标输出唯一元素数量和出现最多元素数量; ?...它可以通过两种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一在 0 到 59 之间,只带有一位小数,使用 float64...回到 convert_df() 方法,如果这一唯一小于 50%,它会自动将类型转换成 category。...'}) # Recommended from v0.25 # .agg(unique_generation=('generation', 'unique'))) 获得每个年龄范围中所有唯一年代标签简单链

1.7K30

从小白到大师,这里有一份Pandas入门指南

有一些获得这些信息方法: 可以用 unique() 和 nunique() 获取唯一(或唯一数量); >>> df['generation'].unique() array(['Generation...(例如最小、最大、平均值、总数等),如果指定 include='all',会针对每一目标输出唯一元素数量和出现最多元素数量; ?...它可以通过两种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一在 0 到 59 之间,只带有一位小数,使用 float64...回到 convert_df() 方法,如果这一唯一小于 50%,它会自动将类型转换成 category。...'}) # Recommended from v0.25 # .agg(unique_generation=('generation', 'unique'))) 获得每个年龄范围中所有唯一年代标签简单链

1.8K11

从小白到大师,这里有一份Pandas入门指南

有一些获得这些信息方法: 可以用 unique() 和 nunique() 获取唯一(或唯一数量); >>> df[ generation ].unique() array([ Generation...(例如最小、最大、平均值、总数等),如果指定 include= all ,会针对每一目标输出唯一元素数量和出现最多元素数量; ?...它可以通过两种简单方法节省高达 90% 内存使用: 了解数据使用类型; 了解数据可以使用哪种类型来减少内存使用(例如,price 这一在 0 到 59 之间,只带有一位小数,使用 float64...回到 convert_df() 方法,如果这一唯一小于 50%,它会自动将类型转换成 category。...}) # Recommended from v0.25 # .agg(unique_generation=( generation , unique ))) 获得每个年龄范围中所有唯一年代标签简单链

1.7K30

初学者使用Pandas特征工程

估算这些缺失超出了我们讨论范围,我们将只关注使用pandas函数来设计一些新特性。 用于标签编码replace() pandasreplace函数动态地将当前替换为给定。...在此,每个二进制1表示该子类别在原始Outlet_Type存在。 用于分箱cut() 和qcut() 分箱是一种将连续变量组合到n个箱技术。...用于文本提取apply() pandasapply() 函数允许在pandas系列上传递函数并将其传递到变量每个点。 它接受一个函数作为参数,然后将其应用于数据行或。...我们可以将任何函数传递给apply函数参数,但是我主要使用lambda函数, 这有助于我在单个语句中编写循环和条件。 使用apply和lambda函数,我们可以存在唯一文本中提取重复凭证。...在我们大卖场销售数据,我们有一个Item_Identifier,它是每个产品唯一产品ID。此变量前两个字母具有三种不同类型,即DR,FD和NC,分别代表饮料,食品和非消耗品。

4.8K31

在Python实现ExcelVLOOKUP、HLOOKUP、XLOOKUP函数功能

VLOOKUP可能是最常用,但它受表格格式限制,查找项必须位于我们正在执行查找数据表最左边。换句话说,如果我们试图带入位于查找左侧,那么VLOOKUP函数将不起作用。...使用XLOOKUP公式来解决这个问题,如下图所示,F“购买物品”是我们希望第二个表(下方表)得到G显示了F使用公式。...在第一行,我们用一些参数定义了一个名为xlookup函数: lookup_value:我们感兴趣,这将是一个字符串 lookup_array:这是源数据框架,我们正在查找此数组/...“lookup_value” return_array:这是源数据框架,我们希望返回 if_not_found:如果未找到”lookup_value”,将返回 在随后: lookup_array...pandas系列一个优点是它.empty属性,告诉我们该系列是否包含或空,如果match_value为空,那么我们知道找不到匹配项,然后我们可以通知用户在数据找不到查找

6.6K10

手把手 | 如何用Python做自动化特征工程

转换作用于单个表(Python角度来看,表只是一个Pandas 数据),它通过一个或多个现有的创建新特征。 例如,如果我们有如下客户表。...例如,如果我们有另一个包含客户贷款信息表格,其中每个客户可能有多笔贷款,我们可以计算每个客户贷款平均值,最大和最小等统计数据。...每个实体都必须有一个索引,该索引是一个包含所有唯一元素。也就是说,索引每个只能出现在表中一次。 clients数据索引是client_id,因为每个客户在此数据只有一行。...例如,在我们数据集中,clients客户数据是loan 贷款数据父级,因为每个客户在客户表只有一行,但贷款可能有多行。...一个例子是通过client_id对贷款loan表进行分组,并找到每个客户最大贷款额。 转换:在单个表上对一或多执行操作。一个例子是在一个表取两个之间差异或取一绝对

4.3K10

Python代码实操:详解数据清洗

同时,数据增加两个缺失数据。...除了示例中直接通过pd.DataFrame来直接创建数据外,还可以使用数据对象 df.from_records、df.from_dict、df.from_items 来元组记录、字典和键值对对象创建数据...() 方法来查找含有至少1个或全部缺失,其中 any() 方法用来返回指定轴任何元素为 True,而 all() 方法用来返回指定轴所有元素都为 True。...除了可以使用固定值替换外(这种情况下即使替换了该特征也没有实际参与模型价值),最合理方式是先将全部为缺失删除,然后再做其他处理。...Python自带内置函数 set 方法也能返回唯一元素集合。 上述过程,主要需要考虑关键点是:如何对重复进行处理。

4.8K20

Python3分析CSV数据

2.2 筛选特定行 在输入文件筛选出特定行三种方法: 行满足某个条件 行属于某个集合 行匹配正则表达式 输入文件筛选出特定行通用代码结构: for row in filereader...最后,对于第三个,使用内置len 函数计算出列表变量header 数量,这个列表变量包含了每个输入文件标题列表。我们使用这个作为每个输入文件数。...2.7 多个文件连接数据 pandas可以直接多个文件连接数据。...基本过程就是将每个输入文件读取到pandas数据,将所有数据追加到一个数据列表,然后使用concat 函数将所有数据连接成一个数据。...如果你需要平行连接数据,那么就在concat 函数设置axis=1。除了数据pandas 还有一个数据容器,称为序列。你可以使用同样语法去连接序列,只是要将连接对象由数据改为序列。

6.6K10

Pandas库常用方法、函数集合

“堆叠”为一个层次化Series unstack: 将层次化Series转换回数据形式 append: 将一行或多行数据追加到数据末尾 分组 聚合 转换 过滤 groupby:按照指定或多个数据进行分组...agg:对每个分组应用自定义聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同结果 rank:计算元素在每个分组排名 filter:根据分组某些属性筛选数据 sum...:计算分组标准差和方差 describe:生成分组描述性统计摘要 first和 last:获取分组第一个和最后一个元素 nunique:计算分组唯一数量 cumsum、cummin、cummax...: 替换字符串特定字符 astype: 将一数据类型转换为指定类型 sort_values: 对数据按照指定进行排序 rename: 对或行进行重命名 drop: 删除指定或行 数据可视化...pandas.plotting.bootstrap_plot:用于评估统计数据不确定性,例如均值,中位数,中间范围pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据模式

25110

删除重复,不只Excel,Python pandas更行

第3行和第4行包含相同用户名,但国家和城市不同。 删除重复 根据你试图实现目标,我们可以使用不同方法删除重复项。最常见两种情况是:整个表删除重复项或查找唯一。...如果我们指定inplace=True,那么原始df将替换为新数据框架,并删除重复项。 图5 在列表或数据表列查找唯一 有时,我们希望在数据框架列表查找唯一。...数据框架是一个表或工作表,而pandas Series是该表/表。换句话说,数据框架由各种系列组成。...当我们对pandas Series对象调用.unique()时,它将返回该唯一元素列表。...图7 Python集 获取唯一另一种方法是使用Python数据结构set,集(set)基本上是一组唯一集合。由于集只包含唯一项,如果我们将重复项传递到集中,这些重复项将自动删除。

5.9K30

使用Python将一个Excel文件拆分成多个Excel文件

将示例文件直接读入pandas数据框架: 图1 该数据集一些家电或电子产品销售信息:产品名称、产地、销售量。我们任务是根据“产品名称”数据拆分为不同文件。...图2 查找分类 接下来,我们需要从数据中提取类别,它们基本上是产品名称。可以简单地返回该所有唯一。...图3 拆分Excel工作表为多个工作表 如上所示,产品名称唯一位于一个数组内,这意味着我们可以循环它来检索每个,例如“空调”、“冰箱”等。然后,可以使用这些作为筛选条件来拆分数据集。...最后,可以将每个数据集保存到同一Excel文件单独工作表。...图4 图5 使用Python拆分Excel工作簿为多个Excel工作簿 如果需要将数据拆分为不同Excel文件(而不是工作表),可以稍微修改上面的代码,只需将每个类别的数据输出到自己文件

3.4K30

MySQL专题- 数据库索引使用场景&注意事项

只会使用到mysql 索引 a 信息 2.索引列上范围查找 ---- 对于某个条件进行范围查找时,如果这个列上有索引,且使用 where ... between and ... > ,1000 where 子句条件是复合索引前面的索引另一范围查找 create index idx_a_b_c_d on tb1(a,b,c,d); 形如: where...3.索引尽量是高选择性 而且要留意基数值,基数值指的是一个不同个数,显然, 最大基数意味着该每个都是唯一,最小基数意味着该所有都是相同,索引基数相对于表行数较高时,...6.如果是唯一值得,创建唯一索引会更佳,也可以确保不会出现重复数据. 7.使用覆盖索引能大大提高性能 覆盖索引:所有数据都可以索引得到,而不需要去读物理记录。...mysql可以直接索引idx_a_b_c 获取数据。使用覆盖索引也可以避免二次索引查找

78520
领券