首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

如果DataFrame某一中含有k个不同,则可以派生出一个k矩阵或DataFrame(其全为1和0)。...7.3 字符串操作 Python能够成为流行数据处理语言,部分原因是其简单易用字符串和文本处理功能。大部分文本运算都直接做成了字符串对象内置方法。...这些运算大部分都能使用正则表达式实现(马上就会看到)。 ? ? casefold 字符转换为小写,并将任何特定区域变量字符组合转换成一个通用可比较形式。...Python内置re模块负责对字符串应用正则表达式。我通过一些例子说明其使用方法。 笔记:正则表达式编写技巧可以自成一章,超出了本书范围。...则将返回None,因为它只匹配出现在字符串开头模式: In [159]: print(regex.match(text)) None 相关,sub方法可以匹配到模式替换为指定字符串,并返回所得到字符串

5.2K90

数据处理 | 在学这几个pandas函数,继续加快你数据处理速度

我们在之前《推荐几个好用python内置函数》里关于字符串操作里介绍过python内置函数eval(),其作用是接受字符串参数,并返回该字符串求值结果,其实在这里也差不多,具体见下面案例介绍。...比如,我们相加: >>> df = pd.DataFrame({'A': range(1, 6), 'B': range(10, 0, -2)}) >>> df A B 0 1...当然了,eval()还支持通过 @ 符号使用 Python 局部变量 ,@ 符号表示“这是一个变量名称而不是一个列名”,从而让你灵活地用两个“命名空间”资源(列名命名空间和 Python 对象命名空间...new 2 bait xyz # A中ba开头元素替换为 new >>> df.replace({'A': r'^ba.$'}, {'A': 'new'}, regex=True)...A B 0 new abc 1 foo new 2 bait xyz # 同时进行多组不同换为不同 >>> df.replace(regex={r'^ba.$': 'new

1.3K30
您找到你想要的搜索结果了吗?
是的
没有找到

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

目录 查看 pandas 及其支持项版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择字符串换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...操控缺失字符串分割为多 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择行与 重塑多重索引 Series 创建透视表...还可以使用 exclude 关键字排除指定数据类型。 ? 7. 把字符串换为数值 再创建一个新 DataFrame 示例。 ?...把 Series 里列表转换为 DataFrame 创建一个 DataFrame 示例。 ? 这里包含了两,第二包含Python 整数列表。...年龄列有 1 位小数,票价列有 4 位小数,如何这两显示小数位数标准化? 用以下代码让这两只显示 2 位小数。 ? 第一个参数是要设置选项名称,第二个参数是 Python 字符串格式。

7.1K20

Pandas 25 式

目录 查看 pandas 及其支持项版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择字符串换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...操控缺失字符串分割为多 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择行与 重塑多重索引 Series 创建透视表...还可以使用 exclude 关键字排除指定数据类型。 ? 7. 把字符串换为数值 再创建一个新 DataFrame 示例。 ?...把 Series 里列表转换为 DataFrame 创建一个 DataFrame 示例。 ? 这里包含了两,第二包含Python 整数列表。...年龄列有 1 位小数,票价列有 4 位小数,如何这两显示小数位数标准化? 用以下代码让这两只显示 2 位小数。 ? 第一个参数是要设置选项名称,第二个参数是 Python 字符串格式。

8.4K00

python数据清洗

直接填充 适合格式 DataFrame, numpy.ndarray from sklearn.preprocessing import Imputer # axis 默认为0 是通过平均值来填充...即删除 # how='all' 行或只要存在就删除 axis=0 按行删除 axis=1 按删除 # 内容转为DataFrame 类型 data = pd.DataFrame(data) #...否则数据显示有问题 数据被会names(标签)占用,可以先读取,获取 行和,如果没有头标签,再设置names标签 其他参数: 文件读取部分数据 skiprows=2 跳过前2行 skiprows..., value=np.nan) # 多个内容换为多个 # data = data.replace({"' ?'":88, "AAPL":88, " ?"...DataFrame 类型 再进行其他缺省处理 3、平均值替换 4、删除缺省参数 5、指定内容填充 额外补充: 文件写入时,注意点 # float_format='%.2f' #保留两位小数

2.4K20

读完本文,轻松玩转数据处理利器Pandas 1.0

这一版 Pandas 也不再支持 Python 2。要使用 1.0+版本 Pandas,至少需要 Python 3.6+版本,所以请确认 pip 和 python 版本是正确。...新数据类型:布尔字符串 Pandas 1.0 还实验性地引入了新数据类型:布尔字符串。 由于这些改变是实验性,因此数据类型 API 可能会有轻微变动,所以用户在使用时务必谨慎操作。...不过,Pandas 推荐用户合理使用这些数据类型,在未来版本中也改善特定类型运算性能,比如正则表达式匹配(Regex Match)。...默认情况下,Pandas 不会自动将你数据强制转换为这些类型。但你可以修改参数来使用数据类型。...另外,在分类数据转换为整数时,也会产生错误输出。特别是对于 NaN ,其输出往往是错误。因此,新版 Pandas 修复了这个 bug。

2.2K20

读完本文,轻松玩转数据处理利器Pandas 1.0

这一版 Pandas 也不再支持 Python 2。要使用 1.0+版本 Pandas,至少需要 Python 3.6+版本,所以请确认 pip 和 python 版本是正确。...新数据类型:布尔字符串 Pandas 1.0 还实验性地引入了新数据类型:布尔字符串。 由于这些改变是实验性,因此数据类型 API 可能会有轻微变动,所以用户在使用时务必谨慎操作。...不过,Pandas 推荐用户合理使用这些数据类型,在未来版本中也改善特定类型运算性能,比如正则表达式匹配(Regex Match)。...默认情况下,Pandas 不会自动将你数据强制转换为这些类型。但你可以修改参数来使用数据类型。...另外,在分类数据转换为整数时,也会产生错误输出。特别是对于 NaN ,其输出往往是错误。因此,新版 Pandas 修复了这个 bug。

3.5K10

Python 数据分析(PYDA)第三版(三)

其中一些函数执行类型推断,因为数据类型不是数据格式部分。这意味着您不一定需要指定哪些是数字、整数、布尔字符串。...decimal 数字中小数分隔符(例如,"."或",");默认为"."。 engine 要使用 CSV 解析和转换引擎;可以是"c"、"python"或"pyarrow"之一。...如果 DataFrame有k个不同,您将得到一个包含所有 1 和 0 k矩阵或 DataFrame。..., lstrip 修剪空格,包括右侧、左侧或两侧换行符 split 使用传递分隔符字符串拆分为子字符串列表 lower 字母字符转换为小写 upper 字母字符转换为大写 casefold 字符转换为小写...单个表达式,通常称为regex,是根据正则表达式语言形成字符串Python 内置re模块负责正则表达式应用于字符串;我将在这里给出一些示例。

18000

【原创干货】6000字、22个案例详解Pandas数据分析预处理时实用技巧,超简单

,整理和总结一下Pandas在数据预处理和数据分析方面的硬核干货,我们大致会说 Pandas计算交叉列表 Pandas字符串与数值转化成时间类型 Pandas字符串转化成数值类型 Pandas当中交叉列表...,行与一同计算出来 normalize: 标准化统计各行各百分比 我们通过几个例子来进一步理解corss_tab()函数作用,我们先导入要用到模块并且读取数据集 import pandas...我们还可以指定保留若干位小数使用round()函数 df_1 = pd.crosstab(df['省份'], df['顾客类型'], values=df["总收入...,包括了布尔字符串等等,或者我们可以调用df.info()方法来调用,如下 df.info() output RangeIndex...'money_regex'] = pd.to_numeric(df['money_regex']) df['money_regex'] 另外我们也可以通过astype()方法,对多个一步到位进行数据类型转换

1.4K10

50个Pandas奇淫技巧:向量化字符串,玩转文本处理

二、向量化字符串处理方法 Pandas字符串方法几乎包括了大部分Python内置字符串方法(内置共有45个方法),下面列举一些常见方法用法,例如上面的count()方法将会返回某个字符个数...expand:布尔,默认为 False。拆分字符串展开为单独。 如果 True ,返回 DataFrame/MultiIndex 扩展维度。...使用带有pat regex=False 作为编译正则表达式会引发错误。...expand:布尔,默认为 False。拆分字符串展开为单独。 如果 True ,返回 DataFrame/MultiIndex 扩展维度。...repl:str,可选 用于替换字符串。如果未指定 (None),则切片区域换为字符串

5.9K60

Pandas 2.2 中文官方教程和指南(十六)

由于 NA 实际是未知 NA 转换为布尔是模棱两可。...转换 如果你有一个使用np.nanDataFrame或Series,可以在DataFrame使用Series.convert_dtypes()和DataFrame.convert_dtypes()数据转换为使用...转换 如果你有一个使用np.nanDataFrame或Series,可以在DataFrame使用Series.convert_dtypes()和DataFrame.convert_dtypes()数据转换为使用...它们在反斜杠方面与没有此前缀字符串有不同语义。原始字符串反斜杠将被解释为转义反斜杠,例如,r'\' == '\\'。 用正则表达式‘.’替换为NaN。...原始字符串反斜杠将被解释为转义反斜杠,例如,r'\' == '\\'。 用正则表达式‘.’替换为NaN。

14110

整理了 25 个 Pandas 实用技巧,拿走不谢!

你可以对第三使用to_numeric()函数,告诉其任何无效数据转换为NaN: ? 如果你知道NaN代表0,那么你可以fillna()函数将他们替换成0: ?...DataFrame划分为两个随机子集 假设你想要将一个DataFrame划分为两部分,随机地75%行给一个DataFrame,剩下25%行给另一个DataFrame。...isna()会产生一个由True和False组成DataFrame,sum()会将所有的True换为1,False转换为0并把它们加起来。...注意到,Age保留到小数点后1位,Fare保留到小数点后4位。如果你想要标准化,显示结果保留到小数点后2位呢? 你可以使用set_option()函数: ?...set_option()函数中第一个参数为选项名称,第二个参数为Python格式化字符。可以看到,Age和Fare现在已经保留小数点后两位。

3.2K10

Python之数据规整化:清理、转换、合并、重塑

Python之数据规整化:清理、转换、合并、重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame行连接起来。...pandas.concat可以沿着一条轴多个对象堆叠到一起。 实例方法combine_first可以重复数据编接在一起,用一个对象中填充另一个对象中缺失。 2....数据风格DataFrame合并操作 2.1 数据集合并(merge)或连接(jion)运算时通过一个或多个键行链接起来。如果没有指定,merge就会将重叠列名当做键,最好显示指定一下。...4.1 重塑层次化索引 层次化索引为DataFrame数据重排任务提供了良好一致性方式。主要两种功能: stack:数据“旋转”为行。...6.2 正则表达式 描述一个或多个空白符regex是\s+ 创建可重用regex对象: regex = re.complie('\s+') regex.split(text) 6.3 pandas中矢量化字符串函数

3K60

Python数据分析数据导入和导出

object_hook:可选,一个函数,用于解析JSON对象转换为自定义Python对象。默认为None。...parse_float:可选,一个函数,用于解析浮点数转换为自定义Python对象。默认为None。 parse_int:可选,一个函数,用于解析整数转换为自定义Python对象。...parse_constant:可选,一个函数,用于解析JSON常量转换为自定义Python对象。默认为None。...返回Python对象:JSON数据解析后得到Python对象。 注意事项: 读取JSON文件必须存在并且格式正确,否则函数将会抛出异常。...JSON文件可以包含不同类型数据,如字符串、数字、布尔、列表、字典等。 解析后Python对象类型根据JSON文件中数据类型进行推断。

13310

Pandas中替换简单方法

使用内置 Pandas 方法进行高级数据处理和字符串操作 Pandas 库被广泛用作数据处理和分析工具,用于从数据中清理和提取特征。 在处理数据时,编辑或删除某些数据作为预处理步骤部分。...这可能涉及从现有创建新,或修改现有以使它们适合更易于使用。为此,Pandas 提供了多种方法,您可以使用这些方法来处理 DataFrame 中所有数据类型。...在这篇文章中,让我们具体看看在 DataFrame中替换和子字符串。当您想替换每个或只想编辑部分时,这会派上用场。 如果您想继续,请在此处下载数据集并加载下面的代码。...import pandas as pd df = pd.read_csv('WordsByCharacter.csv') 使用“替换”来编辑 Pandas DataFrame 系列()中字符串...Pandas 中 replace 方法允许您在 DataFrame指定系列中搜索,以查找随后可以更改或子字符串

5.4K30
领券