首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

高效5个pandas函数,你都用过

之前为大家介绍过10个高效pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效10个Pandas函数,你都用过?...Nunique Nunique用于计算行或列上唯一数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...object类型列推断为更合适数据类型。...object类型包括字符串和混合(数字及非数字)。 object类型比较宽泛,如果可以确定为具体数据类型,则不建议object。...默认是False method:填充方式,pad,ffill,bfill分别是向前、向前、向后填充 创建一个df: values_1 = np.random.randint(10, size=10) values

1.1K40

高效5个pandas函数,你都用过

之前为大家介绍过10个高效pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效10个Pandas函数,你都用过?...Nunique Nunique用于计算行或列上唯一数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...对year列进行唯一计数: df.year.nunique() 输出:10 对整个dataframe每一个字段进行唯一计数: df.nunique() ?...object类型包括字符串和混合(数字及非数字)。 object类型比较宽泛,如果可以确定为具体数据类型,则不建议object。...默认是False method:填充方式,pad,ffill,bfill分别是向前、向前、向后填充 创建一个df: values_1 = np.random.randint(10, size=10) values

1.2K20
您找到你想要的搜索结果了吗?
是的
没有找到

如何进行数据质量分析

在该系列上一篇文章中,我与大家讲述了可以和字段作为基准,进行分析4个维度以及采用相应方法,接下来为大家讲解下常用字段级别和标级别的分析方法。...故可以对异常值数据进行溯源,从根本上规避;或采用代码来兼容异常数据处理方式。 值域分析 值域分析主要是分析字段统计指标。eg:针对数值型统计指标有最大、最小、中位数、均值、极差值和方差等。...针对字符类统计指标有最大长度、最小长度和长度方差等。(加粗为常见指标) 数据分布分析 数据分布分析主要是分析各个维度在总体数据中分布情况。...级别分析 主键唯一性检测方法可参考如下SQL语句。...(distinct concat(b,c)) from table2; --num4 以上是对字段级别分析方法和级别唯一性方法补充。

75320

数据仓库(四)之ETL开发

设计物理模型,STG物理模型一般包括源系统所有字段和审计字段,例如:源系统名称,源名称,加载时间,加载方式。可以去掉其他约束条件,比如主键、索引,默认。...主要步骤 1.数据标准化 从数据内容、格式、命名、计算规则等输出为唯一版本数据,把各个源系统相同描述对象但是不同取值进行统一,比如:性别字段,有的源系统0和1或Man和Wonen。...例如相同客户号,二个源系统都维护了这个客户联系方式,这时候就要根据业务规则来选择保留哪那个源系统。...提交维度和事实 提交维度主要步骤 1.确认粒度 维度粒度就是业务主键,根据业务主键来判断记录唯一性。 2.选择代理键生成器 ETL工具和数据库都有设置字段自增长功能。...3.选择维度类型 根据业务系统实际情况选择合适维度类型,一般采用缓慢变化维类型1和类型2。 4.增量加载维度数据 维度每个字段都要设置默认,不能为空。

3.3K30

DBA-MySql面试问题及答案-上

2.如何查看某个操作语法? 3.MySql存储引擎有哪些? 4.常用2种存储引擎? 6.可以针对表设置引擎?如何设置? 6.选择合适存储引擎?...30.Mysql删除几种方式?区别? 31.like走索引? 32.什么是回? 33.如何避免回? 34.索引覆盖是什么? 35.视图优缺点? 36.主键和唯一索引区别?...本质区别,主键是一种约束,唯一索引是一种索引。 主键不能有空(非空+唯一),唯一索引可以为空。 主键可以是其他外键,唯一索引不可以。 一个只能有一个主键,唯一索引 可以多个。...比较可以是常量,也可以是使用在此之前读取表达式。 相对于下面的ref区别就是它使用唯一索引,即主键或唯一索引,而ref使用是非唯一索引或者普通索引。...八、ref 表示上述连接匹配条件,即哪些列或常量被用于查找索引列上。 九、rows rows 也是一个重要字段。 这是mysql估算需要扫描行数(不是精确)。

29220

工作六年,看到这样代码,内心五味杂陈......

故事还得从半年前数据隔离那个事情说起...... 1.1 数据隔离 预发,灰度,线上环境共用一个数据库。 每一张有一个 env 字段,环境不同不同。 特别说明:env 字段即环境字段。...环境字段} and {condition} 1.4 隔离方案 最拉胯做法:每一张涉及到 DO、Mapper、XML等挨个添加 env 字段。...新增时填充环境字段,查询时添加环境字段条件,真正实现改一处即可。...,只要环境不同,env 不同 借助 JSqlParser 开源工具,改写 sql 语句,修改重新填充、查询拼接条件即可。...开闭原则符合了吗 改漏了应该办呢 其他人遇到跳过检查场景也加这样代码 业务代码和功能代码分离了吗 填充到应用上下文对象 user 合适 .......

20010

Mysql性能优化二:索引优化

1 索引类型 UNIQUE唯一索引 不可以出现相同,可以有NULL。 INDEX普通索引 允许出现相同索引内容。...fulltext index 全文索引 上述三种索引都是针对列发挥作用,但全文索引,可以针对某个单词,比如一篇文章中某个词,然而并没有什么卵,因为只有myisam以及英文支持,并且效率让人不敢恭维...数据列中不重复出现个数,这个数量越高,维度就越高。 如数据中存在8行数据a,b ,c,d,a,b,c,d这个维度为4。 要为维度列创建索引,如性别和年龄,那年龄维度就高于性别。...如果分别在 vc_Name,vc_City,i_Age 上建立单列索引,让该有 3 个单列索引,查询时和上述组合索引效率一样?答案是大不一样,远远低于我们组合索引。...前缀索引 如果索引列长度过长,这种列索引时将会产生很大索引文件,不便于操作,可以使用前缀索引方式进行索引前缀索引应该控制在一个合适点,控制在0.31黄金即可(大于这个就可以创建)。

62830

Mysql性能优化二:索引优化

1 索引类型 UNIQUE唯一索引 不可以出现相同,可以有NULL。 INDEX普通索引 允许出现相同索引内容。...fulltext index 全文索引 上述三种索引都是针对列发挥作用,但全文索引,可以针对某个单词,比如一篇文章中某个词,然而并没有什么卵,因为只有myisam以及英文支持,并且效率让人不敢恭维...数据列中不重复出现个数,这个数量越高,维度就越高。 如数据中存在8行数据a,b ,c,d,a,b,c,d这个维度为4。...如果分别在 vc_Name,vc_City,i_Age 上建立单列索引,让该有 3 个单列索引,查询时和上述组合索引效率一样?答案是大不一样,远远低于我们组合索引。...前缀索引 如果索引列长度过长,这种列索引时将会产生很大索引文件,不便于操作,可以使用前缀索引方式进行索引前缀索引应该控制在一个合适点,控制在0.31黄金即可(大于这个就可以创建)。

57720

深度学习500问——Chapter05: 卷积神经网络(CNN)(2)

因此,为了描述一个大图像,很直观想法就是对不同位置特征进行聚合统计。例如,可以计算图像在固定区域特征上平均值(或最大)来代表这个区域特征。...卷积层 池化层 结构 零填充时输出维度不变,而通道数改变 通常特征维度会降低,通道数不变 稳定性 输入特征发生细微改变时,输出结果会改变 感受域内细微变化不影响输出结果 作用 感受域内提取局部关联特征...“SAME”填充通常采用零填充方式对卷积核不满足整除条件输入特征进行补全,以使卷积层输出维度保持与输入特征维度一致;“VALID”填充方式则相反,实际并不进行任何填充,在输入特征边缘位置若不足以进行卷积操作...,则对边缘信息进行舍弃,因此在步长为1情况下该填充方式卷积层输出特征维度可能会略小于输入特征维度。...宽卷积可以看作在卷积之前在边缘0补充,常见有两种情况,一个是全补充,如下图右部分,这样输出大于输入维度。另一种常用方法是补充一部分0,使得输出核输入维度一致。

23110

python df 列替换_如何用Python做数据分析,没有比这篇文章更详细了(图文详情)...

1#查看数据维度  2df.shape  3(6, 6)  数据信息  使用 info 函数查看数据整体信息,这里返回信息比较多,包括数据维度,列名称,数据格式和所占空间等信息。  ...Python 中使用 unique 函数查看唯一。  查看唯一  Unique 是查看唯一函数,只能对数据特定列进行检查。下面是代码,返回结果是该列中唯一。...对于空处理方式有很多种,可以直接删除包含空数据,也可以对空进行填充,比如用 0 填充或者均值填充。还可以根据不同字段逻辑对空进行推算。  ...1#使用数字 0 填充数据中空  2df.fillna(value=0)  我们选择填充方式来处理空,使用 price 列均值来填充 NA 字段,同样使用 fillna 函数,在要填充数值中使用...= 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()  34  还有一种筛选方式 query

4.4K00

-数据仓库ETL开发

设计物理模型,STG物理模型一般包括源系统所有字段和审计字段,例如:源系统名称,源名称,加载时间,加载方式。可以去掉其他约束条件,比如主键、索引,默认。...主要步骤: 1.数据标准化 从数据内容、格式、命名、计算规则等输出为唯一版本数据,把各个源系统相同描述对象但是不同取值进行统一,比如:性别字段,有的源系统0和1或Man和Wonen。...例如相同客户号,二个源系统都维护了这个客户联系方式,这时候就要根据业务规则来选择保留哪那个源系统。...维度提交: 1.确认粒度 维度粒度就是业务主键,根据业务主键来判断记录唯一性。 2.选择代理键生成器 ETL工具和数据库都有设置字段自增长功能。...3.选择维度类型 根据业务系统实际情况选择合适维度类型,一般采用缓慢变化维类型1和类型2。 4.增量加载维度数据 维度每个字段都要设置默认,不能为空。

1.3K30

使用PyTorch建立你第一个文本分类模型

让我一个简单图表来解释一下 正如你在下图中所看到,在生成输出时还使用了最后一个元素,即padding标记。这是由PyTorch中填充序列来处理。 压缩填充会对填充标记忽略输入时间步。...我正在使用spacy分词器,因为它使用了新分词算法 Lower:将文本转换为小写 batch_first:输入和输出第一个维度总是批处理大小 接下来,我们将创建一个元组列表,其中每个元组中第一个包含一个列名...词汇包含了整篇文章中出现词汇。每个唯一单词都有一个索引。下面列出了相同参数 参数: min_freq:忽略词汇中频率小于指定频率单词,并将其映射到未知标记。...BucketIterator以需要最小填充方式形成批。...如果没有填充包,填充输入也由rnn处理,并返回填充元素隐状态。这是一个非常棒包装器,它不显示填充输入。它只是忽略这些并返回未填充元素隐藏状态。

2K20

图解NumPy,别告诉我你还看不懂!

机器之心编译 本文可视化方式介绍了 NumPy 功能和使用示例。 ? NumPy 软件包是 Python 生态系统中数据分析、机器学习和科学计算主力军。它极大地简化了向量和矩阵操作处理。...图像 图像是尺寸(高度 x 宽度)像素矩阵。 如果图像是黑白(即灰度),则每个像素都可以单个数字表示(通常在 0(黑色)和 255(白色)之间)。想要裁剪图像左上角 10 x 10 像素?...因此彩色图像由尺寸为(高 x 宽 x3) ndarray 表示: ? 语言 如果我们处理文本,情况就不同了。文本数字表示需要一个构建词汇步骤(模型知道唯一字清单)和嵌入步骤。...让我们看看数字表示以下文字步骤: 模型需要先查看大量文本,再用数字表示这位诗人的话语。我们可以让它处理一个小数据集,并用它来构建一个词汇(71,290 个单词): ?...现在这是 numeric volume 形式,模型可以处理并执行相应操作。其他行虽然留空,但是它们会被填充其他示例以供模型训练(或预测)。

2.1K20

【图解 NumPy】最形象教程

转自:机器之心(ID:almosthuman2014) 本文可视化方式介绍了 NumPy 功能和使用示例。 ?...数据表示 考虑所有需要处理和构建模型所需数据类型(电子表格、图像、音频等),其中很多都适合在 n 维数组中表示: 表格和电子表格 电子表格或是二维矩阵。...图像 图像是尺寸(高度 x 宽度)像素矩阵。 如果图像是黑白(即灰度),则每个像素都可以单个数字表示(通常在 0(黑色)和 255(白色)之间)。想要裁剪图像左上角 10 x 10 像素?...因此彩色图像由尺寸为(高 x 宽 x3) ndarray 表示: ? 语言 如果我们处理文本,情况就不同了。文本数字表示需要一个构建词汇步骤(模型知道唯一字清单)和嵌入步骤。...让我们看看数字表示以下文字步骤: 模型需要先查看大量文本,再用数字表示这位诗人的话语。我们可以让它处理一个小数据集,并用它来构建一个词汇(71,290 个单词): ?

2.5K31

这是我见过最好NumPy图解教程

NumPy表示日常数据 日常接触到数据类型,如电子表格,图像,音频......等,如何表示呢?Numpy可以解决这个问题。 和电子表格 电子表格或数据都是二维矩阵。...如果对图像做处理,裁剪图像左上角10 x 10大小一块像素区域,NumPy中image[:10,:10]就可以实现。 这是一个图像文件片段: ?...数字表示文本需要两个步骤,构建词汇(模型知道所有唯一单词清单)和嵌入(embedding)。...你可以看到此NumPy数组维度为[embedding_dimension x sequence_length]。 在实践中,这些数值不一定是这样,但我以这种方式呈现它是为了视觉上一致。...我留空了许多行,可以其他示例填充以供模型训练(或预测)。 事实证明,在我们例子中,那位诗人的话语比其他诗人诗句更加名垂千古。

1.8K41

图解NumPy,这是理解数组最形象一份教程了

选自Jay Alammar Blog 作者:Jay Alammar 机器之心编译 参与:高璇、路 本文可视化方式介绍了 NumPy 功能和使用示例。 ?...图像 图像是尺寸(高度 x 宽度)像素矩阵。 如果图像是黑白(即灰度),则每个像素都可以单个数字表示(通常在 0(黑色)和 255(白色)之间)。想要裁剪图像左上角 10 x 10 像素?...因此彩色图像由尺寸为(高 x 宽 x3) ndarray 表示: ? 语言 如果我们处理文本,情况就不同了。文本数字表示需要一个构建词汇步骤(模型知道唯一字清单)和嵌入步骤。...让我们看看数字表示以下文字步骤: 模型需要先查看大量文本,再用数字表示这位诗人的话语。我们可以让它处理一个小数据集,并用它来构建一个词汇(71,290 个单词): ?...现在这是 numeric volume 形式,模型可以处理并执行相应操作。其他行虽然留空,但是它们会被填充其他示例以供模型训练(或预测)。

1.8K20

​一文看懂数据清洗:缺失、异常值和重复处理

这是最常见数据重复情况。 数据主体相同但匹配到唯一属性不同。这种情况多见于数据仓库中变化维度,同一个事实主体会匹配同一个属性多个。...去重是重复处理主要方法,主要目的是保留能显示特征唯一数据记录。但当遇到以下几种情况时,请慎重(不建议)执行数据去重。 1. 重复记录用于分析演变规律 以变化维度为例。...例如在商品类别的维度中,每个商品对应同1个类别的应该是唯一,例如苹果iPhone7属于个人电子消费品,这样才能将所有商品分配到唯一类别属性中。...但是变与不变是一个相对概念,随着企业不断发展,很多时候维度也会随着发生变化。因此在某个时间内维度是不变,而从整体来看维度也是变化。 对于维度变化,有3种方式进行处理: 直接覆盖原有。...注意:真正变化维度维度不会以中文做主键,通常都会使用数字或字符串类作为唯一关联ID,本节示例仅做说明之用。 2.

8.7K40

图解NumPy,这是理解数组最形象一份教程了

选自Jay Alammar Blog 作者:Jay Alammar 机器之心编译 参与:高璇、路 本文可视化方式介绍了 NumPy 功能和使用示例。 ?...图像 图像是尺寸(高度 x 宽度)像素矩阵。 如果图像是黑白(即灰度),则每个像素都可以单个数字表示(通常在 0(黑色)和 255(白色)之间)。想要裁剪图像左上角 10 x 10 像素?...因此彩色图像由尺寸为(高 x 宽 x3) ndarray 表示: ? 语言 如果我们处理文本,情况就不同了。文本数字表示需要一个构建词汇步骤(模型知道唯一字清单)和嵌入步骤。...让我们看看数字表示以下文字步骤: 模型需要先查看大量文本,再用数字表示这位诗人的话语。我们可以让它处理一个小数据集,并用它来构建一个词汇(71,290 个单词): ?...现在这是 numeric volume 形式,模型可以处理并执行相应操作。其他行虽然留空,但是它们会被填充其他示例以供模型训练(或预测)。

1.9K20

MySQL十:索引基础知识回顾

索引可以将随机IO变成顺序IO 索引既然有这么多优点,那为什么不对表中每个列都建一个索引呢,这样不是更加能提升性能,实际上这是不可取,索引虽然有诸多优点,但是也有很多缺点 缺点 对表中数据进行增...ON (name(length)) 通过以上三种方式为Username字段创建普通索引时,可以看到,并没有使用NORMAL关键字,这是因为在创建普通索引时,NORMAL关键字是可以省略,直接使用...3.4 唯一索引 与普通索引基本相同类似,区别在于:唯一索引字段必须唯一,但允许有空。如果是组合索引,则列组合必须唯一。在创建或修改时追加唯一约束,就会自动创建对应唯一索引。...index_name ON (idcard(length)) 通过以上三种方式为Useridcard(身份证号码)字段创建唯一索引时,使用UNIQUE关键字。...3.5 主键索引 是一种特殊唯一索引,一个只能有一个主键,不允许有空

45430
领券