首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据导入与预处理-课程总结-04~06章

2.1 缺失值处理 2.1.1 缺失值检测与处理方法 缺失值检测可以采用isnull()、notnull()、isna()和notna()方法用法,可以熟练使用这些方法来检测缺失值。...缺失值常见处理方式有三种:删除缺失值、填充缺失值和插补缺失值,pandas为每种处理方式均提供了相应方法。...* na_df.fillna("*") 2.3 重复值处理 2.3.1 重复值检测 pandas中使用duplicated()方法来检测数据重复值。...,包括: 实体识别 冗余属性识别 元组重复等 3.2 基于Pandas实现数据集成 pandas内置了许多能轻松合并数据函数与方法,通过这些函数与方法可以将Series类对象或DataFrame...进行数据合并有join()、merge()、concat(), append()四种方法。

13K10

数据导入与预处理-第6章-01数据集成

例如,如何确定一个数据库“custom_id”与另一个数据库“custome_number”是否表示同一实体。 实体识别单位不统一也会带来问题。...例如,重量属性在一个系统采用公制,而在另一个系统却采用英制;价格属性在不同地点采用不同货币单位。这些语义差异为数据集成带来许多问题。...2 基于Pandas实现数据集成 pandas内置了许多能轻松合并数据函数与方法,通过这些函数与方法可以将Series类对象或DataFrame类对象进行符合各种逻辑关系合并操作,合并后生成一个整合...没有A、B两个列索引,所以这两列相应位置上填充了NaN。...(score1_df,lsuffix='_l', rsuffix='_r') # 可以尝试不加看看 输出为: 总结: pandas包,进行数据合并有join()、merge()、concat

2.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

python数据科学系列:pandas入门详细教程

这里提到了index和columns分别代表行标签和列标签,就不得不提到pandas另一个数据结构:Index,例如series中标签列、dataframe中行标签和列标签均属于这种数据结构。...query,按列对dataframe执行条件查询,一般可用常规条件查询替代 ?...需注意对空值界定:即None或numpy.nan才算空值,而空字符串、空列表等则不属于空值;类似地,notna和notnull则用于判断是否非空 填充空值,fillna,按一定策略对空值进行填充,如常数填充...时间类型向量化操作,如字符串一样,在pandas另一个得到"优待"数据类型是时间类型,正如字符串列可用str属性调用字符串接口一样,时间类型列可用dt属性调用相应接口,这在处理时间类型时会十分有效。...2 分组聚合 pandas另一个强大数据分析功能是分组聚合以及数据透视表,前者堪比SQLgroupby,后者媲美Excel数据透视表。

13.8K20

50个Pandas奇淫技巧:向量化字符串,玩转文本处理

检测字符串是否由字母和数字组成 isalpha() 等价于str.isalpha,检测字符串是否只由字母组成 isdigit() 等价于str.isdigit,检测字符串是否只由数字组成 isspace...() 等价于str.isspace,检测字符串是否只由空格组成 islower() 等价于str.islower,检测字符串字母是否全由小写字母组成 isupper() 等价于str.isupper...,检测字符串字母是否全由大写字母组成 istitle() 等价于str.istitle,检测所有单词首字母是否为大写,且其它字母是否为小写 isnumeric() 等价于str.isnumeric,...确定 passed-in 模式是否为正则表达式: 如果 True ,假设 passed-in 模式是正则表达式 如果 False ,则将模式视为文字字符串。...如果width小于或等于字符串长度,则不添加填充。 如果width大于字符串长度,则多余空格将用空格或传递字符填充

5.9K60

数据科学 IPython 笔记本 7.7 处理缺失数据

缺失数据惯例权衡 许多方案已经开发出来,来指示表格或DataFrame是否存在缺失数据。通常,它们围绕两种策略一种:使用在全局表示缺失值掩码,或选择表示缺失条目的标记值。...例如,R 语言使用每种数据类型保留位组合,作为表示缺失数据标记值,而 SciDB 系统使用表示 NA 状态额外字节,附加到每个单元。...虽然与 R 等领域特定语言中,更为统一 NA 值方法相比,这种黑魔法可能会有些笨拙,但 Pandas 标记值方法在实践运作良好,根据我经验,很少会产生问题。...空值上操作 正如我们所看到,Pandas 将None和NaN视为基本可互换,用于指示缺失值或空值。为了促进这个惯例,有几种有用方法可用于检测,删除和替换 Pandas 数据结构空值。...检测控制 Pandas 数据结构有两种有用方法来检测空数据:isnull()和notnull()。任何一个都返回数据上布尔掩码。

4K20

《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

: In [145]: val.count(',') Out[145]: 2 replace用于将指定模式替换为另一个模式。...casefold 将字符转换为小写,并将任何特定区域变量字符组合转换成一个通用可比较形式。 正则表达式 正则表达式提供了一种灵活在文本搜索或匹配(通常比前者复杂)字符串模式方式。...一个regex描述了需要在文本定位一个模式,它可以用于许多目的。我们先来看一个简单例子:假设我想要拆分一个字符串,分隔符为数量不定一组空白符(制表符、空格、换行符等)。...text) Out[153]: [' ', '\t ', ' \t'] 笔记:如果想避免正则表达式不需要转义(\),则可以使用原始字符串字面量如r'C:\x'(也可以编写其等价式'C:\x...要实现此功能,只需将待分段模式各部分用圆括号包起来即可: In [161]: pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.

5.2K90

Pandas 2.2 中文官方教程和指南(十六)

它们在反斜杠方面具有与没有此前缀字符串不同语义。 原始字符串反斜杠将被解释为转义反斜杠,例如,r'\' == '\\'。 用 NaN 替换 ‘.’...它们在反斜杠方面具有不同语义,与没有此前缀字符串不同。原始字符串反斜杠将被解释为转义反斜杠,例如,r'\' == '\\'。 用 NaN 替换‘.’...它们在反斜杠方面与没有此前缀字符串有不同语义。原始字符串反斜杠将被解释为转义反斜杠,例如,r'\' == '\\'。 用正则表达式将‘.’替换为NaN。...#### 正则表达式替换 注意 Python 字符串前缀为r字符,例如r'hello world'是“原始”字符串。它们在反斜杠方面与没有此前缀字符串有不同语义。...原始字符串反斜杠将被解释为转义反斜杠,例如,r'\' == '\\'。 用正则表达式将‘.’替换为NaN。

14110

Pandas看这一篇即可

日常工作DataFrame使用最为广泛,因为二维数据本质就是一个有行有列表格(想一想Excel电子表格和关系型数据库二维表)。...Series内部结构包含了两个数组,其中一个用来保存数据,另一个用来保存数据索引。...Series对象mask()和where()方法可以将满足或不满足条件值进行替换,如下所示。...数据分析 描述性统计信息 分组聚合操作 groupby方法 透视表和交叉表 数据分箱 数据可视化 用plot方法出图 其他方法 其他方法 独热编码 数据表字符串字段通常需要做预处理,因为字符串字段没有办法计算相关性...处理字符串通常有以下几种方式: 可以使用get_dummies()函数来生成哑变量(虚拟变量)矩阵,将哑变量引入回归模型,虽然使模型变得较为复杂,但可以更直观反映出该自变量不同属性对于因变量影响。

1.7K20

7步搞定数据清洗-Python数据清洗指南

在这篇文章,我尝试简单归纳一下用Python来做数据清洗7步过程,供大家参考。...五、逻辑问题需要筛选 还是Dataframe.loc这个函数知识点。 由于loc还可以判断条件是否为True DataDF.loc[:,'UnitPrice']>0 ? ?...一般来说价格不能为负,所以从逻辑上来说如果价格是小于0数据应该予以筛出 #删除异常值:通过条件判断筛选出数据 #查询条件 querySer=DataDF.loc[:,'Quantity']>0 #应用查询条件...)填充缺失值 2) 以同一指标的计算结果(均值、中位数、众数等)填充缺失值 3) 用相邻值填充缺失值 4) 以不同指标的计算结果填充缺失值 去除缺失值知识点: DataFrame.fillna https...DataDF.UnitPrice = DataDF.UnitPrice.fillna(DataDF.UnitPrice.mean()) 3)除此,还有一种常见方法,就是用相邻值进行填充, 这在时间序列分析相当常见

4.4K20

专栏 | 基于 Jupyter 特征工程手册:数据预处理(三)

handle_unknown 和 handle_missing 仅接受 ‘error’, ‘return_nan’ 及 ‘value’ 设定 # 两者默认值均为 ‘value’, 即对未知类别或缺失值填充训练集因变量平均值...与M估计量编码一样,James-Stein编码器也尝试通过参数B来平衡先验概率与观测到条件概率。...从直觉角度来讲,B起到来平衡先验概率与观测到条件概率作用,若条件概率均值不可靠(y_k具有高方差),则我们应当对先验概率赋予更大权重。...handle_unknown 和 handle_missing 仅接受 ‘error’, ‘return_nan’ 及 ‘value’ 设定 # 两者默认值均为 ‘value’, 即对未知类别或缺失值填充训练集因变量平均值...handle_unknown 和 handle_missing 仅接受 ‘error’, ‘return_nan’ 及 ‘value’ 设定 # 两者默认值均为 ‘value’, 即对未知类别或缺失值填充训练集因变量平均值

32810

Python 数据分析(PYDA)第三版(三)

HDF5 “HDF”代表分层数据格式。每个 HDF5 文件可以存储多个数据集和支持元数据。与更简单格式相比,HDF5 支持各种压缩模式即时压缩,使具有重复模式数据能够更有效存储。...另一个重要扩展类型是Categorical,我们将在 Categorical Data 更详细讨论。截至本文撰写时,可用扩展类型相对完整列表在表 7.3 。...count返回特定子字符串出现次数: In [162]: val.count(",") Out[162]: 2 replace将一个模式出现替换为另一个。...,并将任何区域特定可变字符组合转换为一个通用可比较形式 ljust, rjust 分别左对齐或右对齐;用空格(或其他填充字符)填充字符串对侧,以返回具有最小宽度字符串 正则表达式 正则表达式提供了一种灵活方式来在文本搜索或匹配...虽然 findall 返回字符串所有匹配项,但 search 只返回第一个匹配项。更严格说,match 仅 在字符串开头匹配。

19500

Python之数据规整化:清理、转换、合并、重塑

合并数据集 pandas.merge可根据一个或者多个不同DataFrame行连接起来。 pandas.concat可以沿着一条轴将多个对象堆叠到一起。...实例方法combine_first可以将重复数据编接在一起,用一个对象填充另一个对象缺失值。 2....外连接求取是键并集,组合了左连接和右连接。 2.3 都对连接是行笛卡尔积。 2.4 mergesuffixes选项,用于指定附加到左右两个DataFrame对象重叠列名上字符串。...pandascut函数 5.5 检测和过滤异常值 异常值过滤或变换运算很大程度上其实就是数组运算。 6. 字符串操作 6.1 字符串对象方法 split以逗号分割字符串可以拆分成数段。...6.2 正则表达式 描述一个或多个空白符regex是\s+ 创建可重用regex对象: regex = re.complie('\s+') regex.split(text) 6.3 pandas矢量化字符串函数

3K60

30 个小例子帮你快速掌握Pandas

让我们做另一个使用索引而不是标签示例。 df.iloc [missing_index,-1] = np.nan "-1"是最后一列Exit索引。...尽管我们对loc和iloc使用了不同列表示形式,但行值没有改变。原因是我们使用数字索引标签。因此,行标签和索引都相同。 缺失值数量已更改: ? 7.填充缺失值 fillna函数用于填充缺失值。...考虑从DataFrame抽取样本情况。该示例将保留原始DataFrame索引,因此我们要重置它。...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果(行)。我已经将虚构名称添加到df_new DataFrame。 ? 让我们选择客户名称以Mi开头行。...endswith函数根据字符串末尾字符进行相同过滤。 Pandas可以对字符串进行很多操作。

10.6K10

PySpark SQL——SQL和pd.DataFrame结合体

:是PySpark SQL中最为核心数据结构,实质即为一个二维关系表,定位和功能与pandas.DataFrame以及R语言中data.frame几乎一致。...SQL实现条件过滤关键字是where,在聚合后条件则是having,而这在sql DataFrame也有类似用法,其中filter和where二者功能是一致:均可实现指定条件过滤。...pandas.DataFrame类似的用法是query函数,不同是query()中表达相等条件符号是"==",而这里filter或where相等条件判断则是更符合SQL语法单等号"="。...以上主要是类比SQL关键字用法介绍了DataFrame部分主要操作,而学习DataFrame另一个主要参照物就是pandas.DataFrame,例如以下操作: dropna:删除空值行 实际上也可以接收指定列名或阈值...drop_duplicates函数功能完全一致 fillna:空值填充 与pandasfillna功能一致,根据特定规则对空值进行填充,也可接收字典参数对各列指定不同填充 fill:广义填充 drop

9.9K20

玩转Pandas,让数据处理更easy系列5

: Series(一维)和DataFrame(二维), 系统介绍了创建,索引,增删改查Series, DataFrame等常用操作接口, 总结了Series如何装载到DataFrame,以及一个实际应用多个...总结了多层索引,Pivot操作,sort操作等 值得推荐是,Pandas广泛应用在金融,统计,社会科学,和许多工程领域。Pandas和R语言直接无缝衔接。...easy系列1; 玩转Pandas,让数据处理更easy系列2) DataFrame可以方便实现增加和删除行、列 ( 玩转Pandas,让数据处理更easy系列2) 智能地带标签切片,好玩索引提取大数据集子集...pandas使用浮点NaN表示浮点和非浮点数组缺失数据,它没有什么具体意义,只是一个便于被检测出来标记而已,pandas对象上所有描述统计都排除了缺失数据。...采用字典值填充,对应列取对应字典填充值: pd_data4.fillna({'name':'none','score':60,'rank':'none'}) ?

1.9K20

整理了25个Pandas实用技巧

然后,你可以使用read_clipboard()函数将他们读取至DataFrame: ? 和read_csv()类似,read_clipboard()会自动检测每一列正确数据类型: ?...将DataFrame划分为两个随机子集 假设你想要将一个DataFrame划分为两部分,随机将75%行给一个DataFrame,剩下25%行给另一个DataFrame。...一个字符串划分成多列 我们先创建另一个示例DataFrame: ? 如果我们需要将“name”这一列划分为三个独立列,用来表示first, middle, last name呢?...但是,一个更灵活和有用方法是定义特定DataFrame格式化(style)。 让我们回到stocks这个DataFrame: ? 我们可以创建一个格式化字符串字典,用于对每一列进行格式化。...我们可以通过链式调用函数来应用更多格式化: ? 我们现在隐藏了索引,将Close列最小值高亮成红色,将Close列最大值高亮成浅绿色。 这里有另一个DataFrame格式化例子: ?

2.8K40

整理了25个Pandas实用技巧(下)

然后,你可以使用read_clipboard()函数将他们读取至DataFrame: 和read_csv()类似,read_clipboard()会自动检测每一列正确数据类型: 让我们再复制另外一个数据至剪贴板...将DataFrame划分为两个随机子集 假设你想要将一个DataFrame划分为两部分,随机将75%行给一个DataFrame,剩下25%行给另一个DataFrame。...一个字符串划分成多列 我们先创建另一个示例DataFrame: 如果我们需要将“name”这一列划分为三个独立列,用来表示first, middle, last name呢?...但是,一个更灵活和有用方法是定义特定DataFrame格式化(style)。 让我们回到stocks这个DataFrame: 我们可以创建一个格式化字符串字典,用于对每一列进行格式化。...这里有另一个DataFrame格式化例子: Volume列现在有一个渐变背景色,你可以轻松识别出大和小数值。

2.4K10
领券