前言 数据清洗很重要,本文演示如何使用 Python Pandas 来查找和丢弃 DataFrame 中列值唯一的列,简言之,就是某列的数值除空值外,全都是一样的,比如:全0,全1,或者全部都是一样的字符串如...:已支付,已支付,已支付… 这些列大多形同虚设,所以当数据集列很多而导致人眼难以查找时,这个方法尤为好用。...上代码前先上个坑吧,数据列中的空值 NaN 也会被 Pandas 认为是一种 “ 值 ”,如下图: 所以只要把列的缺失值先丢弃,再统计该列的唯一值的个数即可。...代码实现 数据读入 检测列值唯一的所有列并丢弃 最后总结一下,Pandas 在数据清洗方面有非常多实用的操作,很多时候我们想不到只是因为没有接触过类似的案例或者不知道怎么转换语言描述,比如 “...列值唯一 ” --> “ 除了空值以外的唯一值的个数等于1 ” ,许多坑笔者都已经踩过了,欢迎查看我的其余文章,提建议,共同进步。
第一个接口返回值是这样的:添加描述如何取 account_id:660和account_id:118( account_id的值会一直变化、有时可能多个值不一样、如何取用用于第二个接口)第二个接口要传的参数如下...:添加描述ids可能会有 1到10个 值、还需要从小到大排序的传参、该怎么传?
如果你经常使用Python的第三方科学计算库或者AI库,你会发现这些库的一些方法喜欢一次性返回非常多的值,像下面这样: >>> def calc(): ....... >>> calc() (1, 2, 3, 4, 6) 这是一种严重违背Python编码规范的写法,所以我非常不建议各位跟着数据工程师或者人工智能研究员学习Python入门,这帮人会毁了你的Python...那么如果一个第三方库已经这样写了,而你只想要它返回的前两个数字怎么办?...File "", line 1, in ValueError: too many values to unpack (expected 2) 此时,你可以使用*来把多余的值封装到一个单独的变量中
柱状图数据:也叫直方图(histograms)记录 NDV 和它们出现的频率 NDV 也叫做唯一值数,是对表的字段唯一值个数的统计,对于第一类数据,实际上可以通过一次扫描表获取所有字段的统计数据。...但是,对于大型表的分析,为减少资源消耗,需要通过采样分析。由于采样具有随机性,对于一些数据分布不均匀的字段,通过采样数据获取统计数据可能会导致获取到的数据与实际数据产生较大差异。...由于获取 NDV 数值需要消除重复值(通过 count (distinct col) 方式获取),Oracle 是通过排序的方法将已经读取的唯一值保持在 PGA 当中,以便消除后续的重复值。...这一新算法称为唯一值数估计(Approximate NDV)。 默认情况下,在进行自动采样时,也就是 AUTO _SAMPLE_SIZE 时,就采样该算法。...,如果已经存在相同值,则丢弃该值,否则就插入纲要中; 纲要是有大小限制的,当新插入哈希值时,纲要已经达到大小限制,则按照一定规则分裂该纲要、并丢弃其中一份数据(例如,将首位为0的数值丢弃掉),此时,纲要级别也相应增加
判断指定的条件是否在子查询语句返回的结果集中。 然后根据比较结果完成相关需求的操作。 行子查询 当子查询的结果是一条包含多个字段的记录(一行多列)时,称为行子查询。...外键约束 添加外键约束 外键指的是-一个表中引用另一个表中的一列或多列,被引用的列应该具有主键约束或唯一性约束, 从而保证数据的一-致性 和完整性。 ➢被引用的表称为主表。...tbl_ name表示主表,主表后的参数列表“index_ col_ name,…"表示主键约束或唯一-性约束字段。...ON DELETE与ON UPDATE用于设置主表中的数据被删除或修改时,从表对应数据的处理办法。 ? 关联表操作 实体之间具有一对一、一对多和多对多的联系。...➢对于添加了外键约束的关联表而言,数据的插入、更新和删除操作就会受到一定的约束。 一个具有外键约束的丛表在插入数据时,外键字段的值会受主表数据的约束,保证从表插入的数据必须符合约束规范的要求。
BLOB 和 TEXT 类型之间的唯一区别在于对 BLOB 值进行排序和比较时区分大小写,对 TEXT 值不区分大小写。...普通索引(由关键字 KEY 或 INDEX 定义的索引)的唯一任务是加快对数据的访问速度。 普通索引允许被索引的数据列包含重复的值。...如果能确定某个数据列将只包含彼此各不相同的值,在为这个数据列创建索引的时候就应该用关键字 UNIQUE 把它定义为一个唯一索引。也就是说,唯一索引可以保证数据记录的唯一性。...视图是一种虚拟的表,具有和物理表相同的功能。可以对视图进行增,改,查,操作,视图通常是有一个表或者多个表的行或列的子集。对视图的修改不影响基本表。它使得我们获取数据更容易,相比多表查询。...第一范式:1NF 是对属性的原子性约束,要求属性具有原子性,不可再分解; 第二范式:2NF 是对记录的惟一性约束,要求记录有惟一标识,即实体的惟一性; 第三范式:3NF 是对字段冗余性的约束,即任何字段不能由其他字段派生出来
TEXT是一个不区分大小写的BLOB。BLOB和TEXT类型之间的唯一区别在于对BLOB值进行排序和比较时区分大小写,对TEXT值不区分大小写。...普通索引(由关键字KEY或INDEX定义的索引)的唯一任务是加快对数据的访问速度。普通索引允许被索引的数据列包含重复的值。...如果能确定某个数据列将只包含彼此各不相同的值,在为这个数据列创建索引的时候就应该用关键字UNIQUE把它定义为一个唯一索引。也就是说,唯一索引可以保证数据记录的唯一性。...视图是一种虚拟的表,具有和物理表相同的功能。可以对视图进行增,改,查,操作,视图通常是有一个表或者多个表的行或列的子集。对视图的修改不影响基本表。它使得我们获取数据更容易,相比多表查询。...概念第一范式:1NF是对属性的原子性约束,要求属性具有原子性,不可再分解;第二范式:2NF是对记录的惟一性约束,要求记录有惟一标识,即实体的惟一性;第三范式:3NF是对字段冗余性的约束,即任何字段不能由其他字段派生出来
唯一约束(Unique key)在相同的列、或多个列的组合中,是否允许不同的行拥有重复的值(允许值为NULL)。主键约束(Primary key)同时满足非空约束和唯一约束。...如果表中已包含数据,不能再添加一个具有NOT NULL约束的列,除非对应列还带有DEFAULT值定义。# 唯一约束唯一约束规定了在指定列或列集中的每个值都是唯一的。...即在一个表中,不允许多个行在有唯一约束的列(唯一键)或列集(复合唯一键)上具有重复值。唯一键约束适合于任何不允许重复值的列,但唯一约束通常只要求值唯一,并不一定具有实际意义。...术语定义外键/复合外键约束定义中包含的列称为外键,一个外键由多个列组成时称为复合外键。外键会引用另一个表的主键或唯一键,复合外键则需引用相同数量和数据类型列的复合主键或复合唯一键。...允许对同一列同时指定多个检查性约束,但应保证所有检查性约束的合理性,否则可能会导致表不可用。例如:某一列同时被指定“值必须大于5000”和“值必须小于4999”,两个检查性约束互斥,设置不合理。
BLOB和TEXT类型之间的唯一区别在于对BLOB值进行排序和比较时区分大小写,对TEXT值不区分大小写。...普通索引(由关键字KEY或INDEX定义的索引)的唯一任务是加快对数据的访问速度。 普通索引允许被索引的数据列包含重复的值。...如果能确定某个数据列将只包含彼此各不相同的值,在为这个数据列创建索引的时候就应该用关键字UNIQUE把它定义为一个唯一索引。也就是说,唯一索引可以保证数据记录的唯一性。...视图是一种虚拟的表,具有和物理表相同的功能。可以对视图进行增,改,查,操作,视图通常是有一个表或者多个表的行或列的子集。对视图的修改不影响基本表。它使得我们获取数据更容易,相比多表查询。...第一范式:1NF是对属性的原子性约束,要求属性具有原子性,不可再分解; 第二范式:2NF是对记录的惟一性约束,要求记录有惟一标识,即实体的惟一性; 第三范式:3NF是对字段冗余性的约束,即任何字段不能由其他字段派生出来
/前言/ 前几天群里有个小伙伴问了一个问题,关于Python读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值,大家讨论的甚为激烈,在此总结了两个方法,希望后面有遇到该问题的小伙伴可以少走弯路...2、现在我们想对第一列或者第二列等数据进行操作,以最大值和最小值的求取为例,这里以第一列为目标数据,来进行求值。 ?...3、其中使用pandas库来实现读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值的代码如下图所示。 ? 4、通过pandas库求取的结果如下图所示。 ?...通过该方法,便可以快速的取到文件夹下所有文件的第一列的最大值和最小值。 5、下面使用numpy库来实现读取文件夹下多个CSV文件中的第一列数据并求其最大值和最小值的代码如下图所示。 ?.../小结/ 本文基于Python,使用numpy库和pandas库实现了读取文件夹下多个CSV文件,并求取文件中第一列数据的最大值和最小值,当然除了这两种方法之外,肯定还有其他的方法也可以做得到的,欢迎大家积极探讨
(1)对列的控制,包括主键约束(PRIMARY KEY)、唯一性约束(UNIQUE) ; (2)对列数据的控制,包括检查约束(CHECK)、默认值约束(DEFAULT)、非空约束(NOT NULL);...满足完整性约束要求的数据必须具有以下3个特点。 (1)数据值正确无误:首先数据类型必须正确,其次数据的值必须处于正确的范围内。例如,“成绩”表中“成绩”字段的值必须大于或等于0小于或等于100。...(2)数据的存储必须确保同一表格数据之间的和谐关系。例如,“成绩”表中的“学号”字段列中的每一个学号对应一个学生,不可能将其学号对应多个学生。 (3)数据的存储必须确保维护不同表之间的和谐关系。...主键约束(Primary Key Constraint)要求主键列的数据唯一,并且不允许为空。主键和记录之间的关系如同身份证和人之间的关系,它们之间是一一对应的。...3.3 创建联合主键约束 在数据表中,可以定义多个字段为联合主键约束,如果对多字段定义了PRIMARY KEY 约束,则一列中的值可能会重复,但来自 PRIMARYKEY 约束定义中所有列的任何值组合必须唯一
根据约束对数据列的限制,约束可分为如下两类: 单列约束: 每个约束只约束一列 多列约束: 每个约束可以约束多个数据列 为数据表指定约束有如下两个时机...SQL中的null值,null不区分大小写,具有如下特征: 所有数据类型的值都可以是null,包括int、float、boolean等。 ...虽然唯一约束的列不可以出现重复值,但可以出现多个null值,因为在数据库中null不等于null。...同一个表内可创建多个唯一约束,唯一约束也可有多列组合而成。 当为某列创建唯一约束时,MySQL会为该列创建唯一索引, 如果不给唯一约束起名,该唯一约束默认与列名相同。...不能为null id int not null, #建立唯一约束,意味着多行数据的该列值不能相等 name varchar(255) unique ); 表级语法创建唯一约束的格式
1、NULL 非空约束 NULL 约束用来指定当前字段的值是否允许为空,这里的空并不是空字符串,空格字符串,而是未对该字段赋值就判定为空。...3、UNIQUE 唯一约束 UNIQUE 约束用于限制表的某一字段不可重复,也即唯一,一张表中可以有很多记录,每条记录的该字段的值必须各不相同。...4、PRIMARY KEY 主键约束 『主键』就是能够唯一确定一条具体数据记录的一个或多个字段的组合,也就是说,主键是表数据中一行记录的标记,通过它可以唯一定位到一行数据记录。...它与我们的 UNIQUE 看起来是一样的,我们可以通过 UNIQUE 指定表的一个或多个字段唯一不可重复,看似 UNIQUE 也可以唯一确定一行数据?...这其实就是主键约束和 UNIQUE 约束的一个主要的区别所在,你只要记住主键是用于唯一确定一行数据的,UNIQUE 用于约束某一字段的值不可重复出现。
掌握事务操作 1,约束 上面表中可以看到表中数据存在一些问题: id 列一般是用标示数据的唯一性的,而上述表中的id为1的有三条数据,并且 马花疼 没有id进行标示 柳白 这条数据的age列的数据是3000...,而人也不可能活到3000岁 马运 这条数据的math数学成绩是-5,而数学学得再不好也不可能出现负分 柳青 这条数据的english列(英文成绩)值为null,而成绩即使没考也得是0分 针对上述数据问题...1.1 概念 约束是作用于表中列上的规则,用于限制加入表的数据 例如:我们可以给id列加约束,让其值不能重复,不能为null值。...唯一约束:关键字是 UNIQUE 保证列中所有数据各不相同。 例如:id列中三条数据的值都是1,这样的数据在添加时是绝对不允许的。...那么这样就要求数据中id的值不能重复,不能为null值。 检查约束: 关键字是 CHECK 保证列中的值满足某一条件。
1.主键约束(PRIMARY KEY) 1) 主键用于唯一地标识表中的每一条记录,可以定义一列或多列为主键。...2) 是不可能(或很难)更新. 3) 主键列上没有任何两行具有相同值(即重复值),不允许空(NULL). 4) 主健可作外健,唯一索引不可; 例如给表Students的StudentId字段添加主键约束...(UNIQUE) 1) 唯一性约束用来限制不受主键约束的列上的数据的唯一性,用于作为访问某行的可选手段,一个表上可以放置多个唯一性约束. 2) 只要唯一就可以更新. 3) 即表中任意两行在 指定列上都不允许有相同的值...,允许空(NULL). 4) 一个表上可以放置多个唯一性约束 例如给表Students 的StudentIdNo字段添加唯一性约束 if exists (select * from sysobjects...(Check) 下面是两个检查性约束的例子,第一个限制Age 字段范围为18-25,,第二个限制PhoneNumber长度为11,如果不满足检查约束的条件数据不可被插入或修改 if exists (select
数据库、表格、视图、行和列等对象的逻辑模型提供了灵活的编程环境。你可以在指向不同表格的不同数据字段中设置对应关系的规则,如一对一、一对多、唯一、必须和可选。...BLOB 和 TEXT 类型之间的唯一区别在于对 BLOB 值进行排序和比较时区分大小 写, 对 TEXT 值不区分大小写。...如果能确定某个数据列将只包含彼 此各不相同的值, 在为这个数据列创建索引的时候就应该用关键字 UNIQUE 把它 定义为一个唯一索引。 也就是说, 唯一索引可以保证数据记录的唯一性。...答: 视图是一种虚拟的表, 具有和物理表相同的功能。 可以对视图进行增, 改, 查, 操作, 视图通常是有一个表或者多个表的行或列的子集。 对视图的修改不影 响基本表。...答:第一范式 :1NF 是对属性的原子性约束 ,要求属性具有原子性,不可再分解 ; 第二范式 :2NF 是对记录的惟一性约束 ,要求记录有惟一标识 ,即实体的惟一性 ; 第三范式: 3NF 是对字段冗余性的约束
完整性约束:是完整性规则的集合。它定义了给定数据模型中数据及其联系所具有的制约和依存规则 常见的数据模型 层次模型:用树形结构来表示实体类型及实体间联系的数据模型。...关系模型:用二维表描述数据 关系模型包含以下基本术语 关系:一个二维表就是一个关系 元组:二维表中的一行,即表中的记录 属性:二维表中的一列,用类型和值表示 域:每个属性值的变化范围 关系中的数据约束如下...: 实体完整性约束:主键中属性值不能为空且唯一 参照完整性约束:关系之间的基本约束 用户定义的完整性:列值非空、列值唯一、列值是否满足一个布尔表达式(check短语) 数据库系统的体系结构 三级模式结构...三级模式之间的映射 外模式/模式映射:一个模式可以有多个外模式 模式/内模式映射:模式和内模式都是唯一的,一个数据库中只有一个模式和一个内模式 数据库系统的组成?...关系型数据库的E-R图: 由实体、属性和联系组成 关系模型的范式有 第一范式(1NF):数据表中的每一个列都是不可再分割的基本数据项——即同一列中不能有多个值 第二范式(2NF):在一范式基础上,实体的属性完全依赖于主关键字
2) 是不可能(或很难)更新. 3) 主键列上没有任何两行具有相同值(即重复值),不允许空(NULL). 4) 主健可作外健,唯一索引不可; 2.唯一性约束(UNIQUE...) 1) 唯一性约束用来限制不受主键约束的列上的数据的唯一性,用于作为访问某行的可选手段, 一个表上可以放置多个唯一性约束. 2) 只要唯一就可以更新....3) 即表中任意两行在 指定列上都不允许有相同的值,允许空(NULL). 4) 一个表上可以放置多个唯一性约束 3.唯一索引(INDEX) 创建唯一索引可以确保任何生成重复键值的尝试都会失败...唯一性约束和主键约束的区别: (1).唯一性约束允许在该列上存在NULL值,而主键约束的限制更为严格, 不但不允许有重复,而且也不允许有空值。...: 删除唯一约束时可以只删除约束而不删除对应的索引,所以对应的列还是必须唯一的, 而删除了唯一索引的话就可以插入不唯一的值。
领取专属 10元无门槛券
手把手带您无忧上云