首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据清洗

数据清洗 一般义的清洗 特殊字符 在数据清洗中最常见的就是特殊字符,一般的特殊字符可以直接替换掉如地址码中最常见的’#’,像这种直接替换为号即可。...全角半角转换 数据由于来源或采集问题,可能会有全角的数字或字母,而一般的系统都不会允许有这种问题,所以需要将这些问题在清洗步骤中处理掉。...错/别字处理 错别字问题在数据清洗中是难度比较大的一部分工作,在这部分工作中,首先要找出错别字,并建立错别字对应的正确字符串的对应关系,然后使用程序批量的完成替换 空值检测 空值是要在数据清洗中过滤掉的...清洗中常用的工具与技术 如果要做地理数据的相关处理,那么FME是应该首选工具,当然,清洗也属于数据处理的范畴。...但在进行数据处理的时候,要秉承一个原则,在有选择的时候,能少些代码就少些代码! 综上,在数据清洗中,能够掌握FME与Python基本就够了,如果你还会点正则,那就基本上是完美了!

1.6K20
您找到你想要的搜索结果了吗?
是的
没有找到

python数据清洗

数据的质量直接关乎最后数据分析出来的结果,如果数据有错误,在计算和统计后,结果也会有误。 所以在进行数据分析前,我们必须对数据进行清洗。...需要考虑数据是否需要修改、如何修改调整才能适用于之后的计算和分析等。 数据清洗也是一个迭代的过程,实际项目中可能需要不止一次地执行这些清洗操作。...如果数据不存在或不符合数值规则 用nan填充 delimiter 以什么符号进行分割 skiprows=12 跳过开头12行 数据是从第13行开始的 usecols 就是获取下标为6,7列 的内容...=',', usecols=(6,7), unpack=True) # 读取后的数据类型:numpy.ndarray 缺省数据处理 01 直接填充 适合格式 DataFrame, numpy.ndarray...,没有头标签的要加上header, header=None 否则数据显示有问题 数据被会names(列标签)占用,可以先读取,获取 行和列,如果没有头标签,再设置names标签 其他参数: 文件读取部分数据

2.4K20

数据仓库①:数据仓库概述

~这就是关于数据仓库最贴切的定义了。事实上数据仓库不应让传统关系数据库来实现,因为关系数据库最少也要求满足第1范式,而数据仓库里的关系表可以不满足第1范式。...有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告; 数据仓库组件 数据仓库的核心组件有四个:各源数据库,ETL,数据仓库,前端应用。如下图所示: ? 1....其中提取过程表示操作型数据库搜集指定数据,转换过程表示将数据转化为指定格式并进行数据清洗保证数据质量,加载过程表示将转换过后满足指定格式的数据加载进数据仓库。...数据仓库会周期不断地从源数据库提取清洗好了的数据,因此也被称为"目标系统"; 3....数据仓库开发流程 在数据库系列的第五篇 中,曾详细分析了数据库系统的开发流程。数据仓库的开发流程和数据库的比较相似,因此本文仅就其中区别进行分析。 下图为数据仓库的开发流程: ?

2.8K71

7步搞定数据清洗-Python数据清洗指南

数据清洗是整个数据分析过程的第一步,就像做一道菜之前需要先择菜洗菜一样。数据分析师经常需要花费大量的时间来清洗数据或者转换格式,这个工作甚至会占整个数据分析流程的80%左右的时间。...在这篇文章中,我尝试简单地归纳一下用Python来做数据清洗的7步过程,供大家参考。...尝试去理解这份数据集 我们可以通过对数据集提问来判断这份数据能不能满足解答我们的问题,数据是否干净需不需要进一步处理,问题包括但不限于: 数据集多少数据? 包含了什么字段?字段格式是什么?...# 可以让你更好地了解哪些列缺失的数据更多,从而确定怎么进行下一步的数据清洗和分析操作。 DataDF.isnull().sum().sort_values(ascending=False) ?...可能会存在有标点符号掺杂/大小写不一致/空格重复出现等问题 6)消灭空值:CustomerID、Description、Country和UnitPrice都出现了NaN值,需要去掉 于是下面就开始后续的数据清洗

4.3K20

pandas数据清洗详细教程_excel数据清洗工具

Pandas 数据清洗常见方法 01 读取数据 df=pd.read_csv('文件名称') 02 查看数据特征 df.info() 03 查看数据量 df.shape 04 查看各数字类型的统计量 df.describe...('店名')['销售额'].sum().sort_values 12 遍历查看数据集所有列的数据类型 cols=df_tm.columns for col in cols: print(col+':'...+str(df_tm[col].dtype)) 13 转换数据类型 df['列名']=df.列名.astype('int') 01 去掉温度列后的℃,并将数据转为int类型 df.loc[:,'bwendu...']=df['bwendu'].str.replace('℃','').astype('int32') 02 对某列数据转换类型 data['列名']=data['列名'].astype(int) 14...删除指定列中有空值的行 mydf.dropna(subset=['列名'],inplace=True) mysf=mydf.dropna(subset=['列名']) 15 过滤某列中不符合类型的数据

95110

数据清洗经验

平时习惯了在某些特定的数据集合上做实验,简单的tokenization、预处理等步骤就足够了。但是在数据越来越大的年代,数据清洗越来越重要,也越来越复杂。...数据给你了,那就要处理,但这些数据可能经常是: 不完整的(某些记录的某些字段缺失) 前后不一致(字段名和结构前后不一) 数据损坏(有些记录可能会因为种种原因被破坏) 因此,你必须经常维护你的清洗程序来清洗这些原始数据...在一部分数据上进行测试 不要尝试一次性清洗所有数据。当你刚开始写清洗代码和debug的时候,在一个规模较小的子集上进行测试,然后扩大测试的这个子集再测试。...这样做能够让原始数据作为一个字段保存在清洗后的数据当中,在清洗完之后,如果你发现哪条记录不对劲了,就能够直接看到原始数据长什么样子,方便你debug。...不过,这样做的坏处就是需要消耗双倍的存储空间,并且让某些清洗操作变得更慢。所以这一条只适用于效率允许的情况下。 验证清洗后的数据 记得写一个验证程序来验证你清洗后得到的干净数据是否跟你预期的格式一致。

1.3K40

数据仓库②-数据仓库数据集市建模

前言 数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。...本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。...数据仓库建模体系之规范化数据仓库 所谓"数据仓库建模体系",指的是数据仓库从无到有的一整套建模方法。最常见的三种数据仓库建模体系分别为:规范化数据仓库,维度建模数据仓库,独立数据集市。...很多书将它们称为"数据仓库建模方法",但笔者认为数据仓库建模体系更能准确表达意思,请允许我自作主张一次吧:)。下面首先来介绍规范化数据仓库。...数据仓库建模体系之维度建模数据仓库 非维度建模数据仓库(dimensionally modeled data warehouse)是一种使用交错维度进行建模的数据仓库,其总体架构如下图所示: ?

5.1K72

爬虫系列:数据清洗

在高级数据采集部分就是要帮你分析原始数据,获取隐藏在数据背后的故事——网站的真实故事其实都隐藏在 Javascript、登录表单和网站反爬措施背后。...数据清洗 到目前为止,我们都没有处理过那些样式不规范的数据,要么使用的是样式规范的数据源,要么就是放弃样式不符合我们预期的数据。但在网络数据采集中,你通常无法对采集的数据样式太挑剔。...下面我们就通过工具和技术,通过改变代码的编写方式,帮你从源头控制数据凌乱的问题,并且对已经入库的数据经行清洗。 编写代码清洗数据 和编写异常处理代码一样,你应该学会编写预防型代码来处理意外情况。...我们可以定制一些规则让数据变得更规范: 剔除单字符的“单词”,除非这个单词是“a”或“i”; 剔除维基百科的引用标记(方括号包裹的数字,入1) 剔除标点符号 现在“清洗任务”列表变得越来越长,让我们把规则都移出来...本期关于数据清洗就是如上内容,在接下来的内容中我会讲解数据标准化,以及存储的数据如何清洗

1.6K10

Python数据清洗实践

数据科学家们80%的精力消耗在查找、数据清理、数据组织上,只剩于20%时间用于数据分析等。”——IBM数据分析 数据清洗是处理任何数据前的必备环节。...在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。...数据清洗 数据清洗名如其意,其过程为标识并修正数据集中不准确的记录,识别数据中不可靠或干扰部分,然后重建或移除这些数据。...数据清洗数据科学中很少提及的一点,因为它没有训练神经网络或图像识别那么重要,但是数据清洗却扮演着非常重要的角色。没有它,机器学习预测模型将不及我们预期那样有效和精准。...下面我将讨论这些不一致的数据数据缺失 列值统一处理 删除数据中不需要的字符串 数据缺失 数据缺失原因? 在填写问卷时,人们往往未填全所有必填信息,或用错数据类型。

2.3K20

数据仓库

星座模型: 基于多张事实表,而且共享维度信息,即事实表之间可以共享某些维度表 维度建模步骤: 事实表种类: 事物事实表: 表中的一行对应空间或时间上某点的度量事件 周期快照事实表: 单个周期内数据..., 每行都带有时间值字段,代表周期 累计快照事实表: 由多个周期数据组成,每行汇总了过程开始到结束之间的度量 无事实的事实表: 有少量的没有数字化的值但是还很有价值的字段,无事实的事实表就是为这种数据准备的...使不同的查询能够针对两个或更多的事实表进行查询 上钻(roll-up):上卷是沿着维的层次向上聚集汇总数据。...例如,对产品销售数据,沿着时间维上卷,可以求出所有产品在所有地区每月(或季度或年或全部)的销售额。 下钻(drill-down):下钻是上钻的逆操作,它是沿着维的层次向下,查看更详细的数据。...数据抽取 业务数据 -- Sqoop 日志数据 -- Flume 其他数据 -- 通用第三方接口

15720

数据仓库

*了解数据仓库相关技术 *了解数据仓库设计过程建造,运行及维护 *了解OLAP及多维数据模型 决策支持系统及其演化 一般将数据分为:分析型数据与操作型数据 操作型数据:由企业的基本业务系统产生的数据...数据仓库的特性:面向主题性,集成性,不可更新和时间性。 集成:数据仓库最重要的特性,分为数据抽取转换,清理(过滤)和装载 不可更新:数据仓库中的数据以批量方式处理,不进行一般主义上的数据更新。...数据仓库的体系结构与环境 从数据层次角度的体系结构来看,典型的数据仓库数据体系结构包括:操作型数据、操作型 数据存储、数据仓库数据集市和个体层数据 从功能结构看,可分为数据处理、数据管理和数据应用三个层次...数据仓库数据组织 数据仓库数据单位中保存数据的细化程度或综合程度的级别。...细化程度越高,粒度越小 粒度影响到数据仓库数据量及系统能回答的查询的类型 进行数据仓库数据组织时,应根据当前应用的需求进行多粒度级设计。满足多角度,多层次数据查询要求。

1.8K40

数据仓库】现代数据仓库坏了吗?

数据仓库是现代数据堆栈的基础,所以当我们看到 Convoy 数据负责人 Chad Sanderson 在 LinkedIn 上宣称“数据仓库坏了”时,它引起了我们的注意。...不可变数据仓库如何结合规模和可用性 乍得桑德森的观点 现代数据堆栈有许多排列,但数据仓库是一个基础组件。...另一种方法:引入不可变数据仓库 不可变数据仓库概念(也称为活动 ETL)认为,仓库应该是通过数据来表示现实世界,而不是乱七八糟的随机查询、损坏的管道和重复信息。...不可变数据仓库本身是为流式设计的——从流式数据到批处理数据比反之更容易——因此由三种不同类型的 API 提供。...我并不认为不可变数据仓库是灵丹妙药。与任何方法一样,它也有其优点和缺点,而且肯定不是每个组织都适用。 与数据网格和其他崇高的数据架构计划一样,不可变数据仓库是一种理想状态,很少成为现实。

1.7K20

Python数据清洗实践

数据科学家们80%的精力消耗在查找、数据清理、数据组织上,只剩于20%时间用于数据分析等。”——IBM数据分析 数据清洗是处理任何数据前的必备环节。...在你开始工作前,你应该有能力处理数据缺失、数据不一致或异常值等数据混乱情况。在开始做数据清洗前,需要对Numpy和Pandas库有基本的理解。...数据清洗 数据清洗名如其意,其过程为标识并修正数据集中不准确的记录,识别数据中不可靠或干扰部分,然后重建或移除这些数据。...数据清洗数据科学中很少提及的一点,因为它没有训练神经网络或图像识别那么重要,但是数据清洗却扮演着非常重要的角色。没有它,机器学习预测模型将不及我们预期那样有效和精准。...下面我将讨论这些不一致的数据数据缺失 列值统一处理 删除数据中不需要的字符串 数据缺失 数据缺失原因? 在填写问卷时,人们往往未填全所有必填信息,或用错数据类型。

1.8K30

数据仓库ods层_app数据仓库搭建

数据仓库之ODS层搭建 我们本项目中对数据仓库每层的搭建主要分为两部分,第一部分是确定都有哪些表,第二部分是确定数据装载的方式。...我们在进行ODS层搭建时,需要明确以下几点: 1)ODS层的表结构设计依托于从业务系统同步过来的数据结构。 2)ODS层要保存全部历史数据,故其压缩格式应选择压缩比较高的,此处选择gzip。...我们在进行数据同步时,同步到的用户行为日志数据当中是json字符串格式;增量表是使用Maxwell进行同步的,也是json字符串格式;全量表使用的是DataX同步的,同步到的数据是tsv格式的。...2.29数据装载脚本设计 由于上述28张表的数据装载逻辑相同,因此我们编写一个脚本来统一进行28张表的数据装载。...,可以进行单表数据的装载,也可以使用参数“all“来进行全表数据的装载。

2.6K30
领券