首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

1w 字 pandas 核心操作知识大全。

) 缺失值处理 # 检查数据是否含有任何缺失值 df.isnull().values.any() # 查看数据缺失值情况 df.isnull().sum() # 提取某含有空值行 df[...512["transformer"].str.startswith('JJ2')] df_jj2yya = df_jj2.loc[df_jj2["变压器编号"]=='JJ2YYA'] # 提取第一不在第二出现数字...df.corr() # 返回DataFrame之间相关性 df.count() # 返回非空值每个数据帧数字 df.max() # 返回最高值...df.min() # 返回最小值 df.median() # 返回中位数 df.std() # 返回标准偏差 16个函数,用于数据清洗...黄伟”是以空格开头 df["姓名"].str.startswith("黄") df["英文名"].str.endswith("e") 4.count 计算给定字符字符串中出现次数 df["电话号码

14.8K30

【SAS Says】基础篇:ODS使用(下)

描述性分析,介绍过proc report、proc tabulated这几个语句,如何定制输出结果?字体、背景、颜色?...它可以使得重要值变得醒目,它可以print、report、tabulate中被使用。 使用之前需要做两件事:首先创建用户定义格式。...其次,style=中将风格属性等于你定义格式,比如,你创建了一个格式: ?...printVAR语句中,将属性值等于这个格式: VAR Balance/STYLE={FOREGROUND=posneg.}; 现在所有balance变量风格都发生变化。...想要用信号灯显示每个成绩与世界记录378.72、奥运记录382.20比较结果,先创建用户自定义格式REC,快于世界记录用红色显示,橙色显示快于奥运记录,其他颜色设置白色。

2.2K40

如何用 awk 删除文件重复行【Programming】

摘要 要删除重复行,同时保留它们文件顺序,请使用: awk '!...对于文件一行,如果行出现次数为零,则将其增加一并打印该行,否则,它仅增加出现次数而无需打印该行。 我对awk并不熟悉,所以我想了解它是如何通过这么短脚本来实现这一点。...值:awk,任何非零数字值或任何非空字符串值均为true 。默认情况下,变量被初始化为空字符串,如果转换为数字则为零。...(注意:我们访问变量值之后执行操作) 综上所述,整个表达式计算结果是: 如果事件为零 / 空字符串,则返回true 如果出现次数大于零,则返回false awk语句由一个模式-表达式和一个关联操作组成...1 abc 2 ghi 3 abc 4 def 5 xyz 6 def 7 ghi 8 klm sort -uk2根据第二对行进行排序 ( k2选项),并且只保留第一次出现具有相同第二行(u

8.7K00

Shiro框架学习,Shiro 编码加密

涉及到密码存储问题上,应该加密/生成密码摘要存储,而不是存储明文密码。比如之前600w csdn账号泄露对用户可能造成很大损失,因此应加密/生成不可逆摘要方式存储。...5.2 散算法 散算法一般用于生成数据摘要信息,是一种不可逆算法,一般适合存储密码之类数据,常见算法如MD5、SHA等。...,默认使用Shiro1CryptFormat,另外提供了Base64Format和HexFormat,对于有salt密码请自定义实现ParsableHashFormat然后把salt格式化到散;...如上方式缺点是:salt保存在散;没有实现如密码重试次数限制。...;否则cache重试次数+1,如果超出5次那么抛出异常表示超出重试次数了。

1.1K20

Power Query如何把多数据合并?升级篇

生成一个表格参数变量 生成这个参数变量是为了我们之后可以直接调用来处理同类表格。 我们了解到代码字段数据列表实际上是个已经经过Table.ToColumns处理过一个列表嵌套列表格式。...所以我们优化代码时候可以把这一步处理过程直接作为自定义函数部分流程。同时我们在这个里面直接把函数参数数量及类型给固定住。 ?...确定终点默认值 既然这个变量是作为可选变量,那我们要给予一个默认值,这样才不会让程序出现错误。 我们设置默认值为第一作为固定标题。...确定需循环数 还有一个需要作为变量,也就是确定是多少列进行转换合并。我们上面的例子是以3进行合并,但是我们要做为一个能灵活使用函数,更多变量能让我们更方便使用,适合更多场景。...批量多合并(源,3,3,3) 解释:批量多合并,这个是自定义查询函数名称,源代表是需处理数据表,第2参数3代表需要循环处理次数,第3参数3代表需要合并数据数,第4参数3代表保留前3

6.9K40

简明AWK实战教程

3.4 简单介绍一下AWK变量 接下来了解一下AWK变量: AWK变量,可以分为“内置变量”、“自定义变量”两种,其中输入分隔符、输出分隔符都属于内置变量。...内置变量:就是AWK预先定义好、内置为AWK内部变量。 自定义变量:就是用户定义变量。...AWK常用内置变量 例如:NR,用来表示一行行号,可以输出文本时候显示行号: NR:显示一行行号 NF变量则记录了一行一共有多少列: NF:统计显示一行有多少列 此时,打印一行首尾数字是对应行一共有几列...*AWK统计文件某关键词出现次数 1、统计文件test.txt第2不同值出现次数 awk '{sum[$2]+=1}END{for(i in sum)print i"\t"sum[i]}' test.txt...2"00"或"01"出现次数,命令可写为 awk '{if($2=="00") ++sum1;if($7=="01") ++sum2}END{print "00""\t"sum1"\n""01""\

1.7K30

【SpringSecurity系列(二十)】密码加密两种姿势

2.加密方案 密码加密我们一般会用到散函数,又称散算法、哈希函数,这是一种从任何数据创建数字“指纹”方法。...散函数把消息或数据压缩成摘要,使得数据量变小,将数据格式固定下来,然后将数据打乱混合,重新创建一个散值。散值通常用一个短随机字母和数字组成字符串来代表。...好函数输入域中很少出现冲突。散列表和数据处理,不抑制冲突来区别数据,会使得数据库记录更难找到。...我们常用函数有 MD5 消息摘要算法、安全散算法(Secure Hash Algorithm)。...strength 越大,密钥迭代次数越多,密钥迭代次数为 2^strength。strength 取值 4~31 之间,默认为 10。

1.5K40

日志分析常用命令

,取出我们想要 -d : 自定义分隔符,默认为制表符 -f : 与-d一起使用,指定显示哪 第一个命令:cut -f1 -d " " 含义:以空格进行分割,显示结果第一 sort...将文件一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出 没有参数时就是整行排序 -t : 分隔符,默认是用 [tab] 键来分隔 -k...: 选择以哪进行排序 -n : 使用数字格式进行排序,默认是以文字型态来排序 -r : 反向排序 uniq 首先比较相邻行,然后除去第二行和该行后续副本,重复行一定要相邻,所以通常与...sort 联合使用,先用 sort 进行排序,然后使用 uniq 去重 -c : 输出行前面加上每行出现次数 head 显示结果中头部区域 -10 : 显示头部10行 综合解释 日志文件内容示例...IP数量,显示到IP前面 输出结果为: 1 183.195.232.38 2 183.195.232.39 sort -k 1 -n -r 对第一以数字格式倒序排序 输出结果为: 2

1.1K50

Linux日志审计常用命令: sed、sort、uniq

Linux日志审计常用命令: sed、sort、uniq Linux系统,日志审计是一项重要任务,可以帮助我们了解系统运行状况,排查问题,并保证系统安全。...日志审计过程,sed、sort和uniq是三个非常实用命令。本文将详细介绍这三个命令常用参数及其作用,并结合实例说明其用法。...以下是uniq命令常用参数: -c: 统计每行出现次数 -d: 只显示重复行 -u: 只显示唯一行 3.1 统计每行出现次数 使用-c参数可以统计每行出现次数。....*/\1/p' access.log | # 统计IP出现次数 sort | uniq -c | # 按访问次数从高到低排序 sort -nr 解释: 使用sed命令提取每行日志IP地址 使用sort...实际工作,我们可以灵活运用这些命令,结合管道和重定向,实现更加复杂日志审计和分析任务。

17510

Linux三剑客(grep、sed、awk)

.* 代表任意多个字符 就是代表任意多个字符 lele\{n\} 用来匹配前面lele出现次数。...n为次数 就是统计前面lele出现次数 lele\{n,\} 含义同上,但次数最少为n 从功能就可以看出 lele\{n,m\} 义同上,但lele出现次数n与m之间 从功能也可以看出 lele\...{n,m\} 义同上,但lele出现次数n与m之间 从功能也可以看出 三剑客功能非常强大,但我们只需要掌握他们分别擅长领域即可:grep擅长查找功能,sed擅长取行和替换。...处理时,把当前处理行存储临时缓冲区,称为“模式空间”(pattern space),接着用sed命令处理缓冲区内容,处理完成后,把缓冲区内容送往屏幕。然后读入下行,执行下一个循环。...注意:以上都是内置变量,引用时不需要前面加$,新建一个变量,都需要加个-v,与变量名之间有无空格都可以,变量可以引用之后再声明,但那一行输出会输出空行。

1.4K10

按 host 分组统计视图 | 全方位认识 sys 系统库

《初相识 | 全方位认识 sys 系统库》一文,我们提到过 sys 系统库很多视图是成对出现(带x$内部视图主要用于程序或者视图之间调用,不带x$主要用于人工查询使用,返回数值为经过单位转换易读格式...Performance Schema表HOST列为NULL行在这里假定为后台线程,且该视图host显示为background ios:文件I/O事件总次数,即可以认为就是io总数 io_latency...Performance Schema表HOST列为NULL行在这里假定为后台线程,且该视图host显示为background statements:语句总执行次数 statement_latency...Performance Schema表HOST列为NULL行在这里假定为后台线程,且该视图host显示为background EVENT_NAME:阶段事件名称 total:阶段事件总发生次数...Performance Schema表HOST列为NULL行在这里假定为后台线程,且该视图host显示为background total:语句总执行次数 total_latency:语句总延迟

2.1K40

Python 常用模块

注意:python没有这个函数 uuid3()基于名字和MD5散值 通过计算名和命名空间MD5散值得到,保证了同一命名空间中不同名字唯一性,和不同命名空间唯一性,但是同一命名空间相同名字生成相同...,提供了许多有用集合类 namedtuple 概述 命名元组,本质是一个函数,用他来创建一个自定义tuple类型 规定tuple元素格式,并可以用属性而不是索引引用tuple元素 用namedtuple...,本质上是dict一个子类 导入 from collections import Counter 使用 需求:计算集合每个字符出现次数 s = ...,如MD5、SHA1 摘要算法(又称哈希算法、散算法):它通过一个函数,把任意长度数据转为一个长度固定数据串(通常用16进制字符串表示) 作用 用于加密 MD5 最常见摘要算法,速度快,生成结构是...-666666明文存储到数据库,如果数据库泄露,所有用户信息就会暴露 正确保存口令方式不是存储明文,而是存储口令摘要,当用户登录时,首先计算用户输入明文摘要,和数据库对比,如果一致说明口令正确

48730

Android开发笔记(二十二)瀑布流网格WaterfallGridView

如果是ListView,每行高度一样,一行内每个元素长度是可以自定义,但元素长度必须一样,所以改造ListView效果也很有限。...首先建立一个自定义视图WaterfallGridView,传入两个自定义属性:column_num表示数,item_gap表示单元间隔。...初始化视图时,我们需要初始化一个高度数组,用于存放最后一个视图编号id,以及该列当前总高度。...保存末尾视图id,是为了它下方添加视图时可以指定位于哪个视图下方;保存总高度,是为了判断当前哪一总高度最小,从而把新来网格添加到该末尾。...前面我们自定义视图章节,已经提到尺寸测量以及视图绘制相关知识,之所以onLayout而不是onDraw和dispatchDraw中排列视图,是因为onDraw和dispatchDraw都通过画布来绘制

2.3K60

基于 Apache Hudi 构建增量和无限回放事件流 OLAP 平台

摘要 本博客,我们将讨论构建流数据平台时如何利用 Hudi 两个最令人难以置信能力。...• 增量消费-- 30 分钟处理一次数据,并在我们组织内构建每小时级别的OLAP平台 • 事件流无限回放--利用 Hudi 提交时间线超级便宜云对象存储(如 AWS S3)存储 10 天事件流...但是我们在数据湖获得数据通常以 D -1 每日批处理粒度出现,即使我们每天不止一次地运行这些日常批处理数据处理系统以获取当前 D 最新数据,这些批处理系统固有局限性也无助于我们解决近实时业务用例...但是通过这种方式,当我们用传入记录值覆盖现有记录时,我们将丢失现有记录可能已经存在信息。...我们自定义有效负载类比较存储和传入记录所有,并通过将一条记录与另一条记录非空重叠来返回一条新记录。

1K20

聊一聊 Spring Security 密码加密方案 | 继续送书

函数把消息或数据压缩成摘要,使得数据量变小,将数据格式固定下来,然后将数据打乱混合,重新创建一个散值。散值通常用一个短随机字母和数字组成字符串来代表。...好函数输入域中很少出现冲突。散列表和数据处理,不抑制冲突来区别数据,会使得数据库记录更难找到。...我们常用函数有 MD5 消息摘要算法、安全散算法(Secure Hash Algorithm)。...但是仅仅使用散函数还不够,为了增加密码安全性,一般密码加密过程还需要加盐,所谓盐可以是一个随机数也可以是用户名,加盐之后,即使密码明文相同用户生成密码密文也不相同,这可以极大提高密码安全性...strength 越大,密钥迭代次数越多,密钥迭代次数为 2^strength。strength 取值 4~31 之间,默认为 10。

88840

pandas:apply和transform方法性能比较

不同点: apply()里面可以跟自定义函数,包括简单求和函数以及复杂特征间差值函数等(注:apply不能直接使用agg()方法 / transform()python内置函数,例如sum、...max、min、’count‘等方法) transform() 里面不能跟自定义特征交互函数,因为transform是真针对一元素(即特征操作)进行计算,也就是说使用 transform()...方法时,需要记得三点: 1、它只能对进行计算,所以groupby()之后,.transform()之前是要指定要操作,这点也与apply有很大不同。...2、由于是只能对计算,所以方法通用性相比apply()就局限了很多,例如只能求最大/最小/均值/方差/分箱等操作 3、transform还有什么用呢?...而下面两图中红框内容可观察发现:python自带stats统计模块pandas结构计算也非常慢,也需要避免使用! ? ? 3.

1.3K10

一网打尽10000+生信工具数据库

如果说我看得比别人远些,那是因为我站在巨人肩膀上(牛顿语录)。我们科研道路上,除了自己努力实验,数据库对我们而言就是巨人肩膀,整理好数据,分析可视化图表甚至拿来就可以用于文章发表。...Genetics(基因)为例) 我们可以看到,一类都有简单介绍,比如Genetics类别收录主要是有关基因结构,基因拷贝数变异,以及基因表达调控等数据库与工具。...下面又具体分为了16个小类,我们在这选择表格Gene expression 进入如下界面: 2.1 摘要型界面展示 界面详细介绍: (1)收集有关基因表达有关数据库与工具共计1168个 (2)...⑼ 与数据库/工具对应使用手册 ⑽ 支持语言平台(R,python,C) ⑾ 若是命令工具还支持源代码下载 ⑿ 界面菜单栏(此处是自定义一些有关数据库/工具实用菜单栏,可以自定义其他子菜单) 2.3...:涉及到主题操作数据以及格式等描述都有明确标准; ❻ 有Web API:可以使用官方提供API进行各方便访问和查询。

91921
领券