首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

qcut是一个非常类似于cut函数,它可以根据样本分位数对数据进行面元划分。根据数据分布情况,cut可能无法使各个面元中含有相同数量数据点。...通过需要排列长度调用permutation,可产生一个表示顺序整数数组: In [100]: df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)...如果DataFrame某一中含有k个不同值,则可以派生出一个k矩阵或DataFrame(其值全为1和0)。...加上一个前缀,以便能够跟其他数据进行合并。...一种更快更符合Python风格方式是,字符串"::"join方法传入一个列表或元组: In [140]: '::'.join(pieces) Out[140]: 'a::b::guido' 其它方法关注是子串定位

5.2K90

Python之数据规整化:清理、转换、合并、重塑

Python之数据规整化:清理、转换、合并、重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame行连接起来。...数据风格DataFrame合并操作 2.1 数据集合并(merge)或连接(jion)运算时通过一个或多个键将行链接起来。如果没有指定,merge就会将重叠列名当做键,最好显示指定一下。...4.1 重塑层次化索引 层次化索引为DataFrame数据重排任务提供了良好一致性方式。主要两种功能: stack:将数据“旋转”为行。...5.2 替换值 replace可以由一个带替换值组成列表以及一个替换值 data.replace([-999,-1000],np.nan) 5.3 重命名轴索引 轴标签也可通函数或映射进行转换,从而得到一个对象轴还可以被就地修改...6.2 正则表达式 描述一个或多个空白符regex是\s+ 创建可重用regex对象: regex = re.complie('\s+') regex.split(text) 6.3 pandas中矢量化字符串函数

3K60
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas之实用手册

如果你打算学习 Python数据分析、机器学习或数据科学工具,大概率绕不开Pandas库。Pandas 是一个用于 Python 数据操作和分析开源库。...一、一分钟入门Pandas1.1 加载数据最简单方法之一是,加载csv文件(格式类似Excel表文件),然后以多种方式对它们进行切片和切块:Pandas加载电子表格并在 Python 中以编程方式操作它...pandas 核心是名叫DataFrame对象类型- 本质上是一个值表,每行和每都有一个标签。...:使用数字选择一行或多行:也可以使用标签和行号来选择表任何区域loc:1.3 过滤使用特定值轻松过滤行。...1.6 从现有创建通常在数据分析过程中,发现需要从现有中创建。Pandas轻松做到。

13710

懂Excel就能轻松入门Python数据分析包pandas(十):查找替换

: - 大部分异常值是 x ,但有一些是 xx Excel 中可以查找值可以使用通配符,如下可以解决: - 查找值填 "x*" pandas 中,直接可以使用正则表达式,因此完全难不倒你:...- 参数 regex ,填写正则表达式,"x+" ,表示1个或多个x 案例3 现实往往超出你想象,部门领导突然跟你说,每异常数据替换为"问题[列名]": - 每值都不一样 此时你心里走过一万个草泥马...如果在 Excel ,这只能手工逐替换操作。 pandas 中当然不需要: - 第2参数 value ,可以接受一个字典,key 是列名,item 是替换值 拒绝繁琐!!...有人就会说:这太傻了吧,我还要每值给写出来,我还不如用 Excel 一操作呢。...总结 - DataFrame.replace() ,整表查找替换 - 参数1 : 指定查找值 - 参数2(value):替换值,可以用字典,用以不同替换不同值 - 参数 regex:正则表达式

1.2K20

懂Excel就能轻松入门Python数据分析包pandas(十):查找替换

: - 大部分异常值是 x ,但有一些是 xx Excel 中可以查找值可以使用通配符,如下可以解决: - 查找值填 "x*" pandas 中,直接可以使用正则表达式,因此完全难不倒你:...- 参数 regex ,填写正则表达式,"x+" ,表示1个或多个x 案例3 现实往往超出你想象,部门领导突然跟你说,每异常数据替换为"问题[列名]": - 每值都不一样 此时你心里走过一万个草泥马...如果在 Excel ,这只能手工逐替换操作。 pandas 中当然不需要: - 第2参数 value ,可以接受一个字典,key 是列名,item 是替换值 拒绝繁琐!!...有人就会说:这太傻了吧,我还要每值给写出来,我还不如用 Excel 一操作呢。...总结 - DataFrame.replace() ,整表查找替换 - 参数1 : 指定查找值 - 参数2(value): 替换值,可以用字典,用以不同替换不同值 - 参数 regex: 正则表达式

1.4K10

数据处理 | 在学这几个pandas函数,继续加快你数据处理速度

Dataframe新增数据 新增数据其实是很常见操作,一般情况下我们可以采用直接赋值法,也就是在原来Dataframe数据上进行直接操作,比如: >>> import pandas as pd...直接赋值法这种操作,所以我们来看看直接赋值法可能带来问题: 如果我们想保留原有的df,新增一个df1并在df1上进行有关操作,直接赋值法可能会导致修改df1时候df也发生变化情况 >>> df1...上进行操作,而是返回一个含原来Dataframe全部数据和新增列Dataframe对象。...我们在之前《推荐几个好用python内置函数》里关于字符串操作里介绍过python内置函数eval(),其作用是接受字符串参数,并返回该字符串求值结果,其实在这里也差不多,具体见下面案例介绍。...当然了,eval()还支持通过 @ 符号使用 Python 局部变量 ,@ 符号表示“这是一个变量名称而不是一个列名”,从而让你灵活地用两个“命名空间”资源(列名命名空间和 Python 对象命名空间

1.3K30

利用NumPy和Pandas进行机器学习数据处理与分析

Numpy介绍在进行科学计算和数据分析时,处理大量数据和进行高效数值计算是不可或缺。为了满足这些需求,Python语言提供了一个被广泛使用库——Numpy。...它类似Python列表或数组,但提供了更多功能和灵活性。我们可以使用Series来存储和操作单个数据。...DataFrame是pandas中二维表格数据结构,类似于Excel中工作表或数据库中表。它由行和组成,每可以有不同数据类型。...= df[df['Age'] > 25]print(filtered_df)运行结果如下添加和删除数据我们可以使用相应方法Series或DataFrame添加或删除数据。...例如,要添加数据,可以将一个Series赋值给DataFrame一个列名# 添加df['Gender'] = ['Male', 'Female', 'Male', 'Female']print

17220

Pandas 2.2 中文官方教程和指南(十五)

removeprefix和removesuffix与 Python 3.9 中添加str.removeprefix和str.removesuffix具有相同效果 <docs.python.org...请注意,正则表达式中任何捕获组名称将用作列名;否则将使用捕获组编号。 使用一个正则表达式提取返回一个DataFrame,如果expand=True。...removeprefix和removesuffix与 Python 3.9 中添加str.removeprefix和str.removesuffix具有相同效果 <docs.python.org...请注意,正则表达式中任何捕获组名称将用于列名;否则将使用捕获组编号。 提取具有一个正则表达式将返回一个 DataFrame,如果 expand=True。...请注意,正则表达式中任何捕获组名称将用于列名;否则将使用捕获组编号。 使用一个组提取正则表达式,如果expand=True,则返回一个DataFrame

16010

Python 学习小笔记

这是我在入门Python时候边学边记一些小笔记 字符串 字符串不能被更新 数据集 里面的元素都可以是不同数据类型 都可以被索引和切片 查看一个变量数据类型使用type(obj)方法...python中字符串格式化用法和C中一样 end end一般用于print语句中,用于将结果输出到同一行,或者在输出末尾添加不同字符 逻辑分支 Python没有switch case 语句 实例...(‘filename’,header=0)来读取 返回值是一个dataframe类型 filename可以使用相对路径,表示当前目录可以写’....可用 对数据分组进行计算,比如计算分组平均数等 有点类似于数据库中groupby计算,涉及至少两数据,用法有两种(例 要对A根据B进行分组并计算平均值) 1....使用0值表示沿着每一或行标签\索引值向下执行方法 使用1值表示沿着每一行或者标签模执行对应方法 定位符合某个条件数据(在处理缺失数据时十分有用) data.loc[行条件,条件]

96330

Pandas 2.2 中文官方教程和指南(十六)

当在if语句中使用Series或DataFrame对象时,会出现类似情况,请参阅在 pandas 中使用 if/truth 语句。...转换 如果你有一个使用np.nanDataFrame或Series,可以在DataFrame使用Series.convert_dtypes()和DataFrame.convert_dtypes()将数据转换为使用...转换 如果你有一个使用np.nanDataFrame或Series,可以在DataFrame使用Series.convert_dtypes()和DataFrame.convert_dtypes()将数据转换为使用...当在if语句中使用Series或DataFrame对象时,会出现类似的情况,请参见在 pandas 中使用 if/真值语句。...转换 如果您有一个使用np.nanDataFrame或Series,Series.convert_dtypes()和DataFrame.convert_dtypes()在DataFrame中可以将数据转换为使用

14110

50个Pandas奇淫技巧:向量化字符串,玩转文本处理

Python内置一系列强大字符串处理方法,但这些方法只能处理单个字符串,处理一个序列字符串时,需要用到for循环。...将拆分字符串展开为单独。 如果 True ,返回 DataFrame/MultiIndex 扩展维度。 如果 False ,则返回包含字符串列表系列/索引。 regex:布尔值,默认无。...使用带有pat regex=False 作为编译正则表达式会引发错误。...n56783 1 00000\n00034 2 09877\n66721 print('09877\n66721') 09877 66721 2、pad() Pandas 提供了一种系列中每个字符串元素添加填充...它非常类似Python在[start:stop:step]上进行切片基本原理,这意味着它需要三个参数,即开始位置,结束位置和要跳过元素数量。

5.9K60

Numpy和pandas使用技巧

,元素为0到1之间 np.random.rand(10, 10) 创建指定形状(示例为10行10)随机数组(范围在0至1之间) np.random.uniform(0, 100)创建指定范围内一个数...△ n.transpose()对换数组维度,矩阵转置 △ ndarray.T 与上类似,用于矩阵转置 △ n.concatenate((a1, a2, ...), axis)沿指定轴连接同形数组...] = X[['Global_active_power',"b"]].astype('float64') 查看dataframe统计信息 a.describe() 获取dataframe部分列(必须使用...= True, regex = True) a.replace('%','',inplace = True, regex = True) Dataframe copy import pandas as...Ctrl+Shift+- #将代码块合并:使用Shift选中需要合并框,Shift+m #在代码块前增加代码块,按a;在代码块后增加代码块,按b; #删除代码块,按dd #运行当前代码块,Ctrl

3.5K30

爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗

3、OpenRefine:数据清洗工具,能够对数据进行可视化操作,类似Excel,但其工作方式更像数据库。 本demo学长使用Pandas进行数据清洗。 二、准备工作 ?...网页下载 Python requests 库能够自动帮助我们构造服务器请求资源request对象,返回服务器资源response对象。...观察搜索页面最底部,输入一个关键词,通常会返回多页结果,点击任意一个页面按钮,然后观察浏览器地址栏变化。我们发现不同页面通过浏览器URL中添加 page_index 属性即可。...使用DataFramemap方法可对当前价格这一一个数据遍历执行,并取代原来。...对出版信息这一一个数据按照/分隔后取第一个数据就是作者,提取后我们将它保存在作者这一

3.8K20

Python 数据分析(PYDA)第三版(三)

重命名轴索引 与 Series 中类似,轴标签也可以通过函数或某种形式映射进行类似转换,以生成、不同标记对象。您还可以在原地修改轴,而不创建数据结构。...如果 DataFrame有k个不同值,您将得到一个包含所有 1 和 0 k矩阵或 DataFrame。...在某些情况下,您可能希望在指示 DataFrame 添加前缀,然后将其与其他数据合并。...最近,pandas 开发了一个扩展类型系统,允许添加数据类型,即使它们在 NumPy 中没有原生支持。这些数据类型可以被视为与来自 NumPy 数组数据同等重要。...;不能改变类别数量 reorder_categories 表现类似于rename_categories,但也可以改变结果为有序类别 set_categories 用指定类别集替换类别;可以添加或删除类别

18200

Python开发之Pandas使用

一、简介 Pandas 是 Python数据操纵和分析软件包,它是基于Numpy去开发,所以Pandas数据处理速度也很快,而且Numpy中有些函数在Pandas中也能使用,方法也类似。...Pandas 为 Python 带来了两个数据结构,即 Pandas Series(可类比于表格中某一)和 Pandas DataFrame(可类比于表格)。...三、访问和删除Series中元素 1、访问 一种类似于从列表中按照索引访问数据,一种类似于从字典中按照key来访问value。...) python s.drop(['apple'],inplace=True) 四、DataFrame使用 1、创建DataFrame pd.DataFrame(data, index, columns...df['two']['a'] #先访问再访问行 out: 2 3、删除、增加元素 使用.drop函数删除元素,默认为删除行,添加参数axis = 1来删除

2.8K10

Pandas中替换值简单方法

这可能涉及从现有创建,或修改现有以使它们适合更易于使用。为此,Pandas 提供了多种方法,您可以使用这些方法来处理 DataFrame 中所有数据类型。...在这篇文章中,让我们具体看看在 DataFrame中替换值和子字符串。当您想替换每个值或只想编辑值一部分时,这会派上用场。 如果您想继续,请在此处下载数据集并加载下面的代码。...import pandas as pd df = pd.read_csv('WordsByCharacter.csv') 使用“替换”来编辑 Pandas DataFrame 系列()中字符串...但是,在想要将不同值更改为不同替换值情况下,不必多次调用 replace 方法。相反,可以简单地传递一个字典,其中键是要搜索值,而值是要替换原始值内容。下面是一个简单例子。...每当在值中找到它时,它就会从字符串中删除,因为我们传递第二个参数是一个空字符串。

5.4K30
领券