首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据处理 tips

/blob/master/simple-guide-to-data-cleaning/modified_titanic_data.csv 让我们导入包并读取数据集。...删除重复项 让我们使用此函数检查此数据集中的重复项。 df[df.duplicated(keep=False)] ? keep允许一些参数检查重复项。...这可能是由于来自数据源的错误输入造成的,我们必须假设这些值是正确的,并映射到男性或女性。...如果我们在读取数据时发现了这个问题,我们实际上可以通过将缺失值传递给na_values参数来处理这个缺失值。结果是一样的。 现在我们已经用空值替换了它们,我们将如何处理那些缺失值呢?...在这种情况下,让我们使用中位数来替换缺少的值。 ? df["Age"].median用于计算数据的中位数,而fillna用于中位数替换缺失值。

4.4K30

针对SAS用户:Python数据分析库pandas

本文包括的主题: 导入包 Series DataFrames 读.csv文件 检查 处理缺失数据 缺失数据监测 缺失值替换 资源 pandas简介 本章介绍pandas库(或包)。...以创建一个含随机值的Series 开始: ? 注意:索引从0开始。大部分SAS自动变量像_n_ 使用1作为索引开始位置。...5 rows × 27 columns 缺失值替换 下面的代码用于并排呈现多个对象。它来自Jake VanderPlas的使用数据的基本工具。它显示对象更改“前”和“后”的效果。 ?...为了说明.fillna()方法,请考虑用以下内容来创建DataFrame。 ? ? ? ? 默认情况下,.dropna()方法删除其中找到任何空值的整个行或列。 ? ?...在这种情况下,行"d"被删除,因为它只包含3个非空值。 ? ? 可以插入或替换缺失值,而不是删除行和列。.fillna()方法返回替换空值的Series或DataFrame。

12.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    快速介绍Python数据分析库pandas的基础知识和代码示例

    查看/检查数据 head():显示DataFrame中的前n条记录。我经常把一个数据档案的最上面的记录打印在我的jupyter notebook上,这样当我忘记里面的内容时,我可以回头查阅。...有几个有用的函数用于检测、删除和替换panda DataFrame中的空值。...要检查panda DataFrame中的空值,我们使用isnull()或notnull()方法。方法返回布尔值的数据名,对于NaN值为真。...groupby 是一个非常简单的概念。我们可以创建一组类别,并对类别应用一个函数。这是一个简单的概念,但却是我们经常使用的极有价值的技术。...我们将调用pivot_table()函数并设置以下参数: index设置为 'Sex',因为这是来自df的列,我们希望在每一行中出现一个唯一的值 values值为'Physics','Chemistry

    8.1K20

    PostgreSQL 教程

    IS NULL 检查值是否为空。 第 3 节. 连接多个表 主题 描述 连接 向您展示 PostgreSQL 中连接的简要概述。 表别名 描述如何在查询中使用表别名。...ANY 通过将某个值与子查询返回的一组值进行比较来检索数据。 ALL 通过将值与子查询返回的值列表进行比较来查询数据。 EXISTS 检查子查询返回的行是否存在。 第 8 节....导入和导出数据 您将学习如何使用COPY命令,以 CSV 文件格式对 PostgreSQL 数据进行导入和导出。 主题 描述 将 CSV 文件导入表中 向您展示如何将 CSV 文件导入表中。...外键 展示如何在创建新表时定义外键约束或为现有表添加外键约束。 检查约束 添加逻辑以基于布尔表达式检查值。 唯一约束 确保一列或一组列中的值在整个表中是唯一的。...条件表达式和运算符 主题 描述 CASE 向您展示如何使用CASE表达式构成条件查询。 COALESCE 返回第一个非空参数。您可以使用它将NULL替换为一个默认值。

    59010

    Pandas速查手册中文版

    文件 df.to_sql(table_name, connection_object):导出数据到SQL表 df.to_json(filename):以Json格式导出数据到文本文件 创建测试对象 pd.DataFrame...():检查DataFrame对象中的空值,并返回一个Boolean数组 pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组 df.dropna():删除所有包含空值的行...df.dropna(axis=1):删除所有包含空值的列 df.dropna(axis=1,thresh=n):删除所有小于n个非空值的行 df.fillna(x):用x替换DataFrame对象中所有的空值...(index=col1, values=[col2,col3], aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表 df.groupby(col1)....():返回所有列的均值 df.corr():返回列与列之间的相关系数 df.count():返回每一列中的非空值的个数 df.max():返回每一列的最大值 df.min():返回每一列的最小值 df.median

    12.2K92

    关于“Python”的核心知识点整理大全47

    ,表示最高温度的字符串为空。...为解决这种问题, 我们在从CSV文件中读取值时执行错误检查代码,对分析数据集时可能出现的异常进行处理,如 下所示: highs_lows.py --snip-- # 从文件中获取日期、最高气温和最低气温...Pygal提供了一个 适合初学者使用的地图创建工具,你将使用它来对人口数据进行可视化,以探索全球人口的分布 情况。...在处,我们检查字典的'Year'键对应的值是否是2010(由于population_data.json中的值都是 用引号括起的,因此我们执行的是字符串比较)。...要查看这些国别码,可从模块i18n中导入这个字典, 并打印其键和值: countries.py from pygal.i18n import COUNTRIES 1 for country_code

    14310

    教你预测北京雾霾,基于keras LSTMs的多变量时间序列预测

    包含三块内容: 如何将原始数据集转换为可用于时间序列预测的数据集; 如何准备数据,并使LSTM模型适用于多变量时间序列预测问题; 如何做预测,并将预测的结果重新调整为原始数据单位。...看数据表可知,第一个24小时里,PM2.5这一列有很多空值。 因此,我们把第一个24小时里的数据行删掉。 剩余的数据里面也有少部分空值,为了保持数据完整性和连续性,只要将空值填补为0即可。...下面的脚本处理顺序: 加载原始数据集; 将日期时间合并解析为Pandas DataFrame索引; 删除No(序号)列,给剩下的列重新命名字段; 替换空值为0,删除第一个24小时数据行。...(5)) # 保存数据到pollution.csv dataset.to_csv('pollution.csv') 打印前5行,并将数据保存到pollution.csv。...将预测结果与测试集结合起来,并反转缩放。 还要将测试集真实的污染结果数据和测试集结合起来,进行反转缩放。 通过对比原始比例的预测值和实际值,我们可以计算模型的误差分数,这里计算误差用均方根误差。

    1.2K31

    Power Query 真经 - 第 8 章 - 纵向追加数据

    本节将介绍导入和追加每个文件的过程。 导入文件非常简单,如下所示。 创建一个新的查询【来自文件】【从文本 / CSV】。...图 8-8 在一个步骤中添加多个追加项 或者,如果想要一次执行一个查询,并专注于创建一个易于使用的检查跟踪路径,那么可以在每次向数据源添加一个新的查询时采取如下操作。...将 “Name” 列中的 “'!Print_Area” 文字替换为空白(【替换为】不输入任何东西)。 将 “Name” 列中剩余的文本(“'”)替换为空。...右击 “Month End” 列【替换值】,在【要查找的值】下面输入一个空格,【替换为】输入 “1,”。(译者注:没错,是 “1,”,而不是 1。)...用户已经通过加载 “CSV” 文件构建了解决方案,这些文件包含了相关的数据,并针对它们建立了商业智能报告。然后,下个月来了,IT 部门给分析师发送了替换文件,为每个产品提供新的交易数据。

    6.8K30

    Pandas速查卡-Python数据科学

    df.iloc[0,:] 第一行 df.iloc[0,0] 第一列的第一个元素 数据清洗 df.columns = ['a','b','c'] 重命名列 pd.isnull() 检查空值,返回逻辑数组...pd.notnull() 与pd.isnull()相反 df.dropna() 删除包含空值的所有行 df.dropna(axis=1) 删除包含空值的所有列 df.dropna(axis=1,thresh...=n) 删除所有小于n个非空值的行 df.fillna(x) 用x替换所有空值 s.fillna(s.mean()) 将所有空值替换为均值(均值可以用统计部分中的几乎任何函数替换) s.astype(float...) df.pivot_table(index=col1,values=[col2,col3],aggfunc=max) 创建一个数据透视表,按col1分组并计算col2和col3的平均值 df.groupby...() 查找每个列中的最大值 df.min() 查找每列中的最小值 df.median() 查找每列的中值 df.std() 查找每个列的标准差 点击“阅读原文”下载此速查卡的打印版本 END.

    9.2K80

    Pandas高级数据处理:交互式数据探索

    本文将从基础到高级,逐步介绍在 Pandas 中进行交互式数据探索时常见的问题、报错及如何避免或解决这些问题。1....())1.2 数据检查读取数据后,建议先对数据进行初步检查,以确保数据的完整性和一致性。...可以使用 df.info() 查看数据的基本信息,包括列名、数据类型和非空值数量;使用 df.describe() 获取数值型数据的统计信息;使用 df.isnull().sum() 检查缺失值。...常见问题:分组结果为空:如果分组键中存在缺失值,可能会导致分组结果为空。可以通过 dropna=False 参数保留包含缺失值的分组。...图表布局不合理:多个子图之间的布局可能不合理。可以通过 plt.subplots() 创建多个子图,并调整布局参数。

    11310

    翻译连载 | 附录 B: 谦虚的 Monad-《JavaScript轻量级函数式编程》 |《你不知道的JS》姊妹篇

    所有的方法都会创建一个新的 Monad 实例而不是改变它。 Maybe 是这两个 Monad 的结合。如果一个值是非空的,它是 Just(..)...事实上,Maybe 被声称是有价值的,因为它自动地封装了空值检查得以在某种程度上短路了它的特性行为。...Monad 的核心思想是,它必须对所有的值都是有效的,不能对值做任何检查 —— 甚至是空值检查。所以为了方便,这些其他的实现都是走的捷径。这是无关紧要的。...不要担心,我们可以从外部提供简单的空值检查,Maybe Monad 其他的短路行为也还是可以很好的工作的。...,它知道如何 “展开” safeProp(..) 返回的 Monad。 当遇到空值的时候,我们得到了一连串相同的短路。只是我们把这个逻辑从 Maybe 中排除了。

    96960

    RefactoringGuru 代码异味和重构技巧总结

    解决方案:创建一个包含这些方法的新类,并使其成为实用程序类的子类或包装器。 组织数据 这些重构技术有助于数据处理,用丰富的类功能替换基本类型。...用类替换类型代码 问题:一个类有一个包含类型代码的字段。这种类型的值不用于运算符条件,也不会影响程序的行为。 解决方案:创建一个新类,并使用其对象而不是类型代码的值。...然后用相关的方法调用替换条件。结果是,根据对象类,可以通过多态实现正确的实现。 引入空对象 问题:由于一些方法返回null而不是真实对象,所以在代码中有很多null检查。...解决方案:返回一个显示默认行为的空对象,而不是null。 引入断言 问题:要使部分代码正常工作,某些条件或值必须为true。 解决方案:用特定的断言检查替换这些假设。...用工厂方法代替构造器 问题:你有一个复杂的构造器,它的功能不仅仅是在对象字段中设置参数值。 解决方案:创建一个工厂方法并使用它替换构造器调用。 用异常替换错误代码 问题:方法返回指示错误的特殊值?

    1.9K40

    Python高阶项目(转发请告知)

    在下面的示例中,我将显示正弦方法,以谐波的方式为最初的15个间隔产生正弦调谐: 使用Python的数字时钟 让我们看看如何使用Python创建数字时钟GUI应用程序。...使用Python进行拼写校正 相反,真实单词拼写检查涉及检测并纠正拼写错误,甚至有时偶然导致了真实的英语单词(真实)。拼写校正通常从两个角度来看。非单词拼写检查是检测和纠正导致出现非单词的拼写错误。...这可能来自偶然产生真实单词的实词错误(插入,删除,换位)的印刷错误,也可能是由于作者替换了错误单词的认知错误。...•最后,我们调用main函数来触发程序。 现在,您可以通过将代码显示在笔记本电脑的摄像头上,轻松运行该代码并扫描任何条形码和QR码。 使用Python创建有声读物 PyPDF2允许操作内存中的pdf。...写代码 CSV文件和模板文件准备就绪后,现在该编写代码以使用python发送自定义电子邮件了。让我们从引入必要的模块开始: 我将创建一个函数来读取template.txt文件。

    4.3K10

    Python全网最全基础课程笔记(七)——列表,跟着思维导图和图文来学习,爆肝2w字,无数代码案例!

    列表的判断 Python列表的判断通常指的是对列表中的元素进行条件检查,以决定执行哪些操作。这包括检查列表是否为空、检查列表中是否包含特定元素、检查列表中所有元素是否满足某个条件等。...print("列表不为空") # 这行代码会执行,输出“列表不为空” else: print("列表为空") # 这行代码不会执行 这段代码的主要目的是演示如何使用if语句来检查Python...首先,它初始化了一个空列表my_list,并使用if语句检查该列表是否为空(即是否包含任何元素)。由于列表是空的,所以执行了else分支,输出了“列表为空”。...接着,它修改了my_list以包含重复元素,并再次使用has_duplicates函数进行检查,最后打印出检查结果。...sorted()函数同样支持reverse参数以及key函数来自定义排序逻辑。

    26310

    Python进阶之Pandas入门(四) 数据清理

    下面是如何打印我们的数据集的列名: print (movies_df.columns) 运行结果: Index(['Rank', 'Genre', 'Description', 'Director',...rating', 'votes', 'revenue_millions', 'metascore'], dtype='object') 如果您要使用数据集一段时间,最好使用小写字母、删除特殊字符并使用下划线替换空格...如何处理缺失的值 在研究数据时,您很可能会遇到缺失值或null值,它们实际上是不存在值的占位符。最常见的是Python的None或NumPy的np.nan,在某些情况下它们的处理方式是不同的。...处理空值有两种选择: 去掉带有空值的行或列 用非空值替换空值,这种技术称为imputation 让我们计算数据集的每一列的空值总数。...第一步是检查我们的DataFrame中的哪些单元格是空的: print (movies_df.isnull()) 运行结果: ?

    1.8K60

    SQL和Python中的特征工程:一种混合方法

    根据您的操作系统,可以使用不同的命令进行安装 。 将数据集加载到MySQL服务器 在此示例中,我们将从两个CSV文件加载数据 ,并直接在MySQL中设计工程师功能。...日期列映射到月份,以帮助捕获季节性影响。 注意功能表是如何连续连接的。这实际上是有效的,因为我们总是在一对一映射上连接索引。 最后,让我们看一下5个训练示例及其特征。...现在,您已经有了定义明确的数据集和特征集。您可以调整每个特征的比例和缺失值,以适合您模型的要求。 对于不变于特征缩放的基于树的方法,我们可以直接应用模型,仅关注调整参数。...很高兴看到,除了类别 功能以外,所有有用的功能都是经过精心设计的 。我们的努力得到了回报!同样,事件2的最具预测性的特征是在事件2中观察到了多少个空值。...这是一个说明性案例 ,其中我们无法用中值或平均值替换空值,因为缺少空值的事实与响应变量相关!

    2.7K10

    2018 年你不能错过的 Java 类库

    它基于观察者模式实现对数据/事件的序列的支持,并添加了一些操作符,允许你以声明式构建序列, 使得开发者无需关心底层的线程、同步、线程安全和并发数据结构。...中的重复代码,比如getter,setters,非空检查,生成的Builder等。...无忧的final本地变量。 @NonNull - 或:我如何学会不再担心并爱上了非空异常(NullPointerException)。...@Builder - … 而且鲍伯是你叔叔:创建对象的无争议且奢华的接口! @SneakyThrows - 在以前没有人抛出检查型异常的地方大胆的抛出吧!...HTTP的JSON进行配置 对stub的录制/回放 故障注入 针对每个请求的根据条件进行代理 针对请求的检查和替换进行浏览器的代理 有状态的行为模拟 可配置的响应延迟 { "request":

    85220

    2017 年你不能错过的 Java 类库

    它基于观察者模式实现对数据/事件的序列的支持,并添加了一些操作符,允许你以声明式构建序列, 使得开发者无需关心底层的线程、同步、线程安全和并发数据结构。...中的重复代码,比如getter,setters,非空检查,生成的Builder等。...无忧的final本地变量。 @NonNull - 或:我如何学会不再担心并爱上了非空异常(NullPointerException)。...@Builder - … 而且鲍伯是你叔叔:创建对象的无争议且奢华的接口! @SneakyThrows - 在以前没有人抛出检查型异常的地方大胆的抛出吧!...HTTP的JSON进行配置 对stub的录制/回放 故障注入 针对每个请求的根据条件进行代理 针对请求的检查和替换进行浏览器的代理 有状态的行为模拟 可配置的响应延迟 { "request": {

    1K80

    从Excel到Python:最常用的36个Pandas函数

    数据表检查 数据表检查的目的是了解数据表的整体情况,获得数据表的关键信息、数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有 空值和重复项和具体的数据内容,为后面的清洗和预处理做好准备。...Isnull是Python中检验空值的函数 #检查数据空值 df.isnull() ? #检查特定列空值 df['price'].isnull() ?...1.处理空值(删除或填充) Excel中可以通过“查找和替换”功能对空值进行处理 ?...Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。...#对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列名称为category和size pd.DataFrame((x.split('-') for x in df_inner

    11.5K31
    领券