首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas速查卡-Python数据科学

格式的字符串, URL或文件. pd.read_html(url) 解析html URL,字符串或文件,并将表提取到数据框列表 pd.read_clipboard() 获取剪贴板的内容并将其传递给read_table...('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据框的前n行 df.tail(n) 数据框的后n行 df.shape() 行数和列数...=n) 删除所有小于n个非空值的行 df.fillna(x) 用x替换所有空值 s.fillna(s.mean()) 将所有空值替换为均值(均值可以用统计部分中的几乎任何函数替换) s.astype(float...df.groupby([col1,col2]) 从多列返回一组对象的值 df.groupby(col1)[col2] 返回col2中的值的平均值,按col1中的值分组(平均值可以用统计部分中的几乎任何函数替换...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max

9.2K80

从小白到大师,这里有一份Pandas入门指南

内存优化 在处理数据之前,了解数据并为数据框的每一列选择合适的类型是很重要的一步。...它可以通过两种简单的方法节省高达 90% 的内存使用: 了解数据框使用的类型; 了解数据框可以使用哪种类型来减少内存的使用(例如,price 这一列值在 0 到 59 之间,只带有一位小数,使用 float64...这种分类类型允许用索引替换重复值,还可以把实际值存在其他位置。教科书中的例子是国家。和多次存储相同的字符串「瑞士」或「波兰」比起来,为什么不简单地用 0 和 1 替换它们,并存储在字典中呢?...这个数是任意的,但是因为数据框中类型的转换意味着在 numpy 数组间移动数据,因此我们得到的必须比失去的多。 接下来看看数据中会发生什么。...在得到的数据框中,「年龄」列是索引。 除了了解到「X 代」覆盖了三个年龄组外,分解这条链。第一步是对年龄组分组。

1.7K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    从小白到大师,这里有一份Pandas入门指南

    内存优化 在处理数据之前,了解数据并为数据框的每一列选择合适的类型是很重要的一步。...它可以通过两种简单的方法节省高达 90% 的内存使用: 了解数据框使用的类型; 了解数据框可以使用哪种类型来减少内存的使用(例如,price 这一列值在 0 到 59 之间,只带有一位小数,使用 float64...这种分类类型允许用索引替换重复值,还可以把实际值存在其他位置。教科书中的例子是国家。和多次存储相同的字符串「瑞士」或「波兰」比起来,为什么不简单地用 0 和 1 替换它们,并存储在字典中呢?...这个数是任意的,但是因为数据框中类型的转换意味着在 numpy 数组间移动数据,因此我们得到的必须比失去的多。 接下来看看数据中会发生什么。...在得到的数据框中,「年龄」列是索引。 除了了解到「X 代」覆盖了三个年龄组外,分解这条链。第一步是对年龄组分组。

    1.8K11

    从小白到大师,这里有一份Pandas入门指南

    内存优化 在处理数据之前,了解数据并为数据框的每一列选择合适的类型是很重要的一步。...它可以通过两种简单的方法节省高达 90% 的内存使用: 了解数据框使用的类型; 了解数据框可以使用哪种类型来减少内存的使用(例如,price 这一列值在 0 到 59 之间,只带有一位小数,使用 float64...这种分类类型允许用索引替换重复值,还可以把实际值存在其他位置。教科书中的例子是国家。和多次存储相同的字符串「瑞士」或「波兰」比起来,为什么不简单地用 0 和 1 替换它们,并存储在字典中呢?...这个数是任意的,但是因为数据框中类型的转换意味着在 numpy 数组间移动数据,因此我们得到的必须比失去的多。 接下来看看数据中会发生什么。...在得到的数据框中,「年龄」列是索引。 除了了解到「X 代」覆盖了三个年龄组外,分解这条链。第一步是对年龄组分组。

    1.7K30

    Pandas库常用方法、函数集合

    中的join concat:合并多个dataframe,类似sql中的union pivot:按照指定的行列重塑表格 pivot_table:数据透视表,类似excel中的透视表 cut:将一组数据分割成离散的区间...“堆叠”为一个层次化的Series unstack: 将层次化的Series转换回数据框形式 append: 将一行或多行数据追加到数据框的末尾 分组 聚合 转换 过滤 groupby:按照指定的列或多个列对数据进行分组...:计算分组的标准差和方差 describe:生成分组的描述性统计摘要 first和 last:获取分组中的第一个和最后一个元素 nunique:计算分组中唯一值的数量 cumsum、cummin、cummax...、cumprod:计算分组的累积和、最小值、最大值、累积乘积 数据清洗 dropna: 丢弃包含缺失值的行或列 fillna: 填充或替换缺失值 interpolate: 对缺失值进行插值 duplicated...: 替换字符串中的特定字符 astype: 将一列的数据类型转换为指定类型 sort_values: 对数据框按照指定列进行排序 rename: 对列或行进行重命名 drop: 删除指定的列或行 数据可视化

    31510

    Python代码实操:详解数据清洗

    (df) 通过Pandas生成一个6行4列,列名分别为'col1'、'col2'、'col3'、'col4'的数据框。...同时,数据框中增加两个缺失值数据。...但是如果数据已经读取完毕并且不希望再重新读取,那可以使用Pandas的 replace 功能将指定的字符串(或列表)替换为 NaN。...更有效的是,如果数据中的缺失值太多而无法通过列表形式穷举时,replace 还支持正则表达式的写法。 当列中的数据全部为空值时,任何替换方法都将失效,任何基于中位数、众数和均值的策略都将失效。...先通过 df.copy() 复制一个原始数据框的副本,用来存储Z-Score标准化后的得分,再通过 df.columns 获得原始数据框的列名,接着通过循环判断每一列中的异常值。

    5K20

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    在 Pandas 中,您使用特殊方法从/向 Excel 文件读取和写入。 让我们首先基于上面示例中的数据框,创建一个新的 Excel 文件。 tips.to_excel("....默认情况下,pandas 会截断大型 DataFrame 的输出以显示第一行和最后一行。...按值排序 Excel电子表格中的排序,是通过排序对话框完成的。 pandas 有一个 DataFrame.sort_values() 方法,它需要一个列列表来排序。...在 Pandas 中提取单词最简单的方法是用空格分割字符串,然后按索引引用单词。请注意,如果您需要,还有更强大的方法。...查找和替换 Excel 查找对话框将您带到匹配的单元格。在 Pandas 中,这个操作一般是通过条件表达式一次对整个列或 DataFrame 完成。

    19.6K20

    Python3分析Excel数据

    有两种方法可以在Excel文件中选取特定的列: 使用列索引值 使用列标题 使用列索引值 用pandas设置数据框,在方括号中列出要保留的列的索引值或名称(字符串)。...用pandas基于列标题选取Customer ID和Purchase Date列的两种方法: 在数据框名称后面的方括号中将列名以字符串方式列出。...pandas将所有工作表读入数据框字典,字典中的键就是工作表的名称,值就是包含工作表中数据的数据框。所以,通过在字典的键和值之间迭代,可以使用工作簿中所有的数据。...然后,用loc函数在每个工作表中选取特定的列,创建一个筛选过的数据框列表,并将这些数据框连接在一起,形成一个最终数据框。...在一组工作表中筛选特定行 用pandas在工作簿中选择一组工作表,在read_excel函数中将工作表的索引值或名称设置成一个列表。

    3.4K20

    筛选功能(Pandas读书笔记9)

    今天和大家分享如果使用Pandas实现单、多条件筛选、模糊筛选。 还是老套路,我们需要先读取一组数据作为测试文件。...这里两个数字都是闭合的,案例中[7:11]则选取的是第8行至第12行(pandas从0开始编号) 二、提取任意列 1、按照列名提取单列 ? 2、按照列名提取多列 ?...转义一下就是你的原始数据不能是字符串! 常见错误:原始数字使用文本形式存储 所以在这里和大家介绍一下如何强制文本转数字 ? 上述两种方法均可! 细心的朋友肯定会说:“你框我!不是转化涨跌幅咩!...)将原始数据强制转化为浮点型数据,除以100,让原始数据保持不变;最后使用赋值将更改后的数据重新赋值给涨跌幅那一列。...事实证明,工作中的编程其实是处于发现问题,解决问题的过程~ 那我们多增加一步,先把-替换掉 pd.to_numeric(df['成交量'].str.strip("-"))>1000 ?

    5.9K61

    pandas中的字符串处理函数

    在pandas中,通过DataFrame来存储文件中的内容,其中最常见的数据类型就是字符串了。针对字符串,pandas提供了一系列的函数,来提高操作效率。...这些函数可以方便的操作字符串类型的Series对象,对数据框中的某一列进行操作,这种向量化的操作提高了处理效率。pandas中的字符串处理函数以str开头,常用的有以下几种 1....Name: 0, dtype: object # 当拼接的对象为一个数据框时,将数据框的所有列都进行拼接 >>> df[1] = df[0].str.cat(['1','2', '3', '4'])...(r'(\w)_(\d)') 0 1 0 A 1 1 B 2 2 C 3 3 D 4 # 用下述写法指定数据框的表头 >>> df[0].str.extract(r'(?...# 返回值为一个行为多重索引的数据框 # match表示匹配的顺序,从0开始计数 >>> df[0].str.extractall(r'(?

    2.8K30

    数据处理 | 在学这几个pandas函数,继续加快你数据处理的速度

    上次我们介绍了几个pandas函数,如nlargest()、pct_change()和explode(),《学会这些好用的pandas函数,让你的数据处理更快人一步》让大家可以更快的求取前N组数据、计算数据之间变化率以及将列表元素数据展开为一列等等...今天,我们再介绍几个好用的pandas函数,让大家在新增数据列、数据筛选或进行数据微调的时候继续快人一步。 目录: 1....数据筛选 关于更多的数据筛选大家可以参考之前的文章《Pandas学习笔记03-数据清洗(通过索引选择数据)》,这里介绍的是query(),一个也是接收字符串表达式参数,然后返回满足条件的数据部分的方法,...数据微调 这里介绍的是replace()方法,将原有数据中特定的数据用指定的数据进行替换。...用B替换,特定的某些数据用另外一组数据替换,满足条件的某些数据用另外的数据替换等等。

    1.4K30

    python数据分析笔记——数据加载与整理

    5、文本中缺失值处理,缺失数据要么是没有(空字符串),要么是用某个标记值表示的,默认情况下,pandas会用一组经常出现的标记值进行识别,如NA、NULL等。查找出结果以NAN显示。...(2)对于pandas对象(如Series和DataFrame),可以pandas中的concat函数进行合并。...(2)将‘长格式’旋转为‘宽格式’ 2、转换数据 (1)数据替换,将某一值或多个值用新的值进行代替。(比较常用的是缺失值或异常值处理,缺失值一般都用NULL、NAN标记,可以用新的值代替缺失标记值)。...一对一替换:用np.nan替换-999 多对一替换:用np.nan替换-999和-1000. 多对多替换:用np.nan代替-999,0代替-1000. 也可以使用字典的形式来进行替换。...默认情况下,上述方法保留的是第一个出现的值组合,传入take_last=true则保留最后一个。

    6.1K80

    Python-科学计算-pandas-08-列字符串操作1

    Python的科学计算版块 今天讲讲pandas模块: 对列的每一个元素进行同样的字符串操作 今天讲其中的3个操作: 切片,字符串替换,字符串连接 Part 1:目标 ?...已知Df某列都是字符串,每一个字符串都有一个文件与其对应,目标在于获取每一个文件的名称 存在以下规律: 字符串的最后一个字符是D或者F 其中D表示该字符串是一个txt文本文件的名称 其中F表示该字符串是一个...pdf文本文件的名称 这些文件的名称最终组成是: FINAL_列元素.文件类型 实现方法: 提取该列每个元素的最后一位字符 根据规则进行替换,获取文件类型 字符串连接,加上常量 FINAL_ 和 ....:\n", df_1) print("\n")df_1["newFlag"] = df_1["flag"].replace("D", "txt").replace("F", "pdf")print("列每个元素字符替换...综上,整体效果是按列整体进行字符串操作,无需遍历循环,大大减少代码量

    1.1K20

    数据分析从零开始实战 | 基础篇(四)

    我的理解 字符串或编译的正则表达式,可选 包含与此正则表达式或字符串匹配的文本的一组表将返回。 除非HTML非常简单,否则您可能需要在此处传递一个非空字符串。...(3)对缺失数据处理之fillna函数 fillna()函数:用指定值或插值的方法填充缺失数据。 ?...我的理解 简单点说,就是替换NA(空值)的值。如果是直接给值,表示全部替换; 如果是字典: {列名:替换值} 表示替换掉该列包含的所有空值。...pad / ffill:按列检索,将最后一次不为空的值赋给下一个空值。 backfill / bfill:按列检索,将下一个不为空的值赋给该空值。...我的理解 其实很简单,就是按列搜索空值,然后limit的值表示最大的连续填充空值个数。 比如:limit=2,表示一列中从上到下搜索,只替换前两个空值,后面都不替换。

    1.3K20

    python数据科学系列:pandas入门详细教程

    和DML操作在pandas中都可以实现 类比Excel的数据透视表功能,Excel中最为强大的数据分析工具之一是数据透视表,这在pandas中也可轻松实现 自带正则表达式的字符串向量化操作,对pandas...与此同时,series因为只有一列,所以数据类型自然也就只有一种,pandas为了兼容二者,series的数据类型属性既可以用dtype也可以用dtypes获取;而dataframe则只能用dtypes...lookup,loc的一种特殊形式,分别传入一组行标签和列标签,lookup解析成一组行列坐标,返回相应结果: ?...,可通过axis参数设置是按行删除还是按列删除 替换,replace,非常强大的功能,对series或dataframe中每个元素执行按条件替换操作,还可开启正则表达式功能 2 数值计算 由于pandas...时间类型向量化操作,如字符串一样,在pandas中另一个得到"优待"的数据类型是时间类型,正如字符串列可用str属性调用字符串接口一样,时间类型列可用dt属性调用相应接口,这在处理时间类型时会十分有效。

    15K20

    使用pandas进行数据快捷加载

    默认情况下,pandas会将数据存储到一个专门的数据结构中,这个数据结构能够实现按行索引、通过自定义的分隔符分隔变量、推断每一列的正确数据类型、转换数据(如果需要的话),以及解析日期、缺失值和出错数据。...它不是一个简单的Python列表或字典。为了对其内容有一个粗略的概念,使用如下命令可以输出它的前几行(或最后几行): iris.head() 输出数据框的前五行,如下所示: ?...以下是X数据集的后4行数据: ? 在这个例子中,得到的结果是一个pandas数据框。为什么使用相同的函数却有如此大的差异呢?...那么,在前一个例子中,我们想要抽取一列,因此,结果是一维向量(即pandas series)。 在第二个例子中,我们要抽取多列,于是得到了类似矩阵的结果(我们知道矩阵可以映射为pandas的数据框)。...至此,我们已经了解了数据科学过程中一些很常见的步骤。加载完数据集之后,通常会分离特征和目标标签。目标标签通常是序号或文本字符串,指示与每一组特征相关的类别。

    2.1K21

    数据城堡参赛代码实战篇(三)---我们来探究一个深奥的问题!

    2 问题2 问题又来了,这次是这样的: ? 这时小编开始瞎搞,把后面的sum() 替换为join(' '),报错了!大神又开始支招了: ?...:第一行,我们首先对str列中的每一个值,通过一个匿名函数lambda进行处理,在每一个值前面加一个空格;随后我们根据id值进行分组并通过sum()运算进行连接,同时赋值给一个新的DataFrame;最后我们再通过一个匿名函数去掉开头的一个空格即可...此时,另一位大神又来支招啦,使得我们的代码更加简洁: ?...,这是因为代码中的x是每一组的数据块,而不是一个二元元组,这是最关键的!...然后我们对每一组的数据块通过一个空格进行连接即可,这里值得提醒大家的是当我们通过列名获得DataFrame中一列时,返回的是一个Series对象,它可直接使用join方法进行连接。

    94250

    pandas入门教程

    这段输出说明如下: 输出的最后一行是Series中数据的类型,这里的数据都是int64类型的。 数据在第二列输出,第一列是数据的索引,在pandas中称之为Index。...替换无效值 我们也可以通过fillna函数将无效值替换成为有效值。像这样: ? 这段代码输出如下: ? 将无效值全部替换成同样的数据可能意义不大,因此我们可以指定不同的数据来进行填充。...为了便于操作,在填充之前,我们可以先通过rename方法修改行和列的名称: ? 这段代码输出如下: ? 处理字符串 数据中常常牵涉到字符串的处理,接下来我们就看看pandas对于字符串操作。...Series的str字段包含了一系列的函数用来处理字符串。并且,这些函数会自动处理无效值。 下面是一些实例,在第一组数据中,我们故意设置了一些包含空格字符串: ?...在这个实例中我们看到了对于字符串strip的处理以及判断字符串本身是否是数字,这段代码输出如下: ? 下面是另外一些示例,展示了对于字符串大写,小写以及字符串长度的处理: ? 该段代码输出如下: ?

    2.2K20

    手把手教你做一个“渣”数据师,用Python代替老情人Excel

    Medium上一位博主就分享了他一步步用Python替换掉十年前的“老情人”Excel的过程,一起来学习一下吧! ?...使用index_col参数可以操作数据框中的索引列,如果将值0设置为none,它将使用第一列作为index。 ?...1、从“头”到“脚” 查看第一行或最后五行。默认值为5,也可以自定义参数。 ? 2、查看特定列的数据 ? 3、查看所有列的名字 ? 4、查看信息 查看DataFrame的数据属性总结: ?...简单的数据透视表,显示SepalWidth的总和,行列中的SepalLength和列标签中的名称。 现在让我们试着复杂化一些: ? 用fill_value参数将空白替换为0: ?...可以非常自信地说它是电子表格上计算的每个数据的支柱。 不幸的是Pandas中并没有vlookup功能! 由于Pandas中没有“Vlookup”函数,因此Merge用与SQL相同的备用函数。

    8.4K30
    领券