首页
学习
活动
专区
圈层
工具
发布

分组后合并分组列中的字符串如何操作?

一、前言 前几天在Python最强王者交流群【IF】问了一个Pandas的问题,如图所示。...下面是他的原始数据: 序号 需求 处理人 1 优化 A 2 优化 B 3 运维 A 4 运维 C 5 需求 B 6 优化 C 7 运维 B 8 运维 C 9 需求 C 10 运维 C 11 需求 B...如果不去重,就不用unique,完美地解决粉丝的问题! 后来他自己参考月神的文章,拯救pandas计划(17)——对各分类的含重复记录的字符串列的去重拼接,也写出来了,如图所示。...这篇文章主要盘点了一个pandas的基础问题,文中针对该问题给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。...最后感谢粉丝【IF】提问,感谢【月神】、【瑜亮老师】给出的思路和代码解析,感谢【dcpeng】等人参与学习交流。

4.9K10

R语言数据分析利器data.table包 —— 数据框结构处理精讲

可见它是属于data.table和data.frame类,并且取列,维数,都可以采用data.frame的方法。...n列,.N(总列数,直接在j输入.N取最后一列),:=(直接在data.table上添加列,没有copy过程,所以快,有需要的话注意备份),.SD输出子集,.SD[n]输出子集的第n列,DT[,...., by=x][order(x)] #和上面一样,采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来,各组分别对定义的行中的...函数画图,对于每个x的分组画一张图 DT[, m:=mean(v), by=x] #对DT按x列分组,直接在DT上再添加一列m,m的内容是mean(v),直接修改并且不输出到屏幕上 DT[, m:=mean...(y=max(y)), lapply(.SD, min)), by=x, .SDcols=y:v] #对DT取y:v之间的列,按x分组,输出max(y),对y到v之间的列每列求最小值输出。

7.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    java中的sort排序算法_vba中sort按某列排序

    大家好,又见面了,我是你们的朋友全栈君。 C++中提供了sort函数,可以让程序员轻松地调用排序算法,JAVA中也有相应的函数。...Arrays.sort(a); for (i=0;i<=4;i++) { System.out.println(a[i]+" "); } } } 2.基本元素从大到小排序: 由于要用到sort中的第二个参数...可以使用Interger.intvalue()获得其中int的值 下面a是int型数组,b是Interger型的数组,a拷贝到b中,方便从大到小排序。capare中返回值是1表示需要交换。...Arrays.sort(a,cmp); for (i=0;i<=4;i++) { System.out.println(a[i]); } } } 4.区间排序 如果只希望对数组中的一个区间进行排序...,那么就用到sort中的第二个和第三个参数sort(a,p1,p2,cmp),表示对a数组的[p1,p2)(注意左闭右开)部分按cmp规则进行排序 发布者:全栈程序员栈长,转载请注明出处:https:

    3.5K30

    【R语言】因子在临床分组中的应用

    前面给大家简单介绍了 ☞【R语言】R中的因子(factor) 今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。 我们还是以TCGA数据中的CHOL(胆管癌)这套数据为例。...关于这套临床数据的下载可以参考 ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) 前面我们也给大家介绍过一些处理临床数据的小技巧 ☞【R语言】卡方检验和Fisher精确检验,复现临床paper...*","stage I/II",stage) #转换成因子 stage=factor(stage) stage 可以得到下面这个两分组的因子 方法二、直接使用factor函数 #删除组织病理学分期末尾的...参考资料: ☞【R语言】R中的因子(factor) ☞如何从TCGA数据库下载RNAseq数据以及临床信息(一) ☞【R语言】卡方检验和Fisher精确检验,复现临床paper ☞R生成临床信息统计表...☞玩转TCGA临床信息 ☞TCGAbiolinks获取癌症临床信息 ☞肿瘤TNM分期 ☞R替换函数gsub

    4.6K21

    R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

    R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时,data.table与data.frame数据呈现方面,还有有所不同的。...data.table中,还有一个比较特立独行的函数: 使用:=引用来添加或更新一列(参考:R语言data.table速查手册) DT[, c("V1","V2") := list(round(exp(V1...,他包含了各个分组,除了by中的变量的所有元素。....—————————————————————— 实战一:在data.table如何选中列,如何循环提取、操作data.table中的列?...(x)] 还有 data$x 如果有很多名字很长的指标,data.table中如果按列进行遍历呢? data[,1]是不行的,选中列的方式是用列名。

    10.8K43

    「R」数据操作(三):高效的data.table

    接「R」数据操作(一)和「R」数据操作(二) 使用data.table包操作数据 data.table包提供了一个加强版的data.frame,它运行效率极高,而且能够处理适合内存的大数据集,它使用[]...N是最常用的符号之一,它表示当前分组中,对象的数目(就不用调用nrow函数啦)。在[]使用它指提取最后一行。...对数据进行分组汇总 by是data.table中另一个重要参数(即方括号内的第3个参数),它可以将数据按照by值进行分组,并对分组计算第2个参数。...下面举例说明,首先创建有1000万行的数据,其中一列是索引列id,其他两列是随机数: n = 10000000 test1 = data.frame(id = 1:n, x = rnorm(n), y...("volume") #> year average #> 1: 2015 4000 #> 2: 2016 4003 我们可以利用此包专门的语法创造一个列数动态变化的组合,并且组合中的列是由动态变化的名称决定的

    7.1K20

    生信技能树 Day8 9 GEO数据挖掘 基因芯片数据

    library(stringr) # 标准流程代码是二分组,多分组数据的分析后面另讲 # 生成Group向量的三种常规方法,三选一,选谁就把第几个逻辑值写成T,另外两个为F。...如果三种办法都不适用,可以继续往后写else if if(F){ # 第一种方法,有现成的可以用来分组的列 Group = pd$ #列名 }else if(F){ # 第二种方法,眼睛数,...这里可能返回三种情况 第一、二种情况,按返回的提示复制框中代码运行 若报错显示library的包不存在就自己装一下 library(hgu133plus2.db);ids R包里的注释表格变成数据框 } 方法2 读取GPL网页的表格文件,按列取子集 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...singleDoc# 《一个有点难的探针注释》 包含在ENTREZ_GENE_ID中 library(tinyarray) find_anno("GPL30971") get_gpl_txt("GPL30971

    70322

    data.table包使用应该注意的一些细节

    因此对于不是非常巨大的文件,建议设置为1,不要使用全部核心 fread中sep是自动检测的   所以在循环读入文件的过程中,就算不同文件的分隔符不同,也可以循环一次性方便的读入; 还有就算后续改变了文件的分隔符...  as.matrix作用于data.table时会调用as.matrix.data.table,有一个rownames参数可以指定保留为行名的列 矩阵转换成data.table时可以保留列名   在...as.data.table函数中同样有一个rownames参数,设置为T可以将行名保留下来作为data.table的一列 不建议set和for循环一起使用   虽然set可以在内存上直接改变数值,但在R...  类似于集合运算,data.table中fintersect, fsetdiff, funion,fsetequal函数能对不同数据框的行求交集,差集,并集等 可以直接对列按分隔符进行分割   应用...分隔,分割成c1,c2两列 支持类似于SQLs的分组运算   带有rollup, cube, groupingsets函数 参考资料 data.table 1.11.2 manual:https://cran.r-project.org

    1.7K10

    R语言学习笔记之——数据处理神器data.table

    data.table 1、I/O性能: data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指,这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何,...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...DT[i,j,by] 如果这个过程是SQL中是由select …… from …… where …… groupby …… having 来完成的,在R的其他基础包中起码也是分批次完成的。...当整列和聚合的单值同时输出时,可以支持自动补齐操作。 当聚合函数与data.table中的分组参数一起使用时,data.table的真正威力才逐渐显露。 mydata[,....左手用R右手Python系列——数据合并与追加 长宽转换: 长宽转换仍然支持plyr中的melt/dcast函数以及tidyr中的gather/spread函数。

    4.1K80

    用data.table语句批量处理变量

    问 题:批量处理表中变量 正式开始说问题之前,我们先回顾一下data.table的基本语句DT[i, j, by],简而言之,"i"是对行进行选择,"j"是对列进行操作,"by"是分组。...批 量处理法:用lapply批量处理变量 在此时lapply的妙用就显现出来了,在R中lapply用来对list中每一个element进行相同处理,如何把它运用到data.table,话不多说先上代码:...我们知道在data.table包中,.SD是经过i和by处理之后剩下的那部分数据集,它的格式是一个data.table,同时它是一个list。...如何把处理好的这些变量与变量名进行对应,这里就用到了colnames()这个函数,提取出我们这个data.table第3到第34个变量的名字,这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。...下 期预告 下期的大猫R语言课堂还是由村长来进行撰写和推送,届时将会给大家带来一个比较有趣的data.table发现,敬请期待!! ?

    1.4K30

    R练习50题 - 第一期

    例如股票600128,如果它一共有100天的观测,那么我们会出现100个重复结果。为了去重,我们需要借助于data.table中的unique函数。 我们希望最终的输出是一个字符串向量: ?...unique:找出symbol中不重复的值。 在data.table的语法中,先进行列选择操作,再对列进行处理。所以上述语句会先执行str_detect,再执行unique。...这是因为data.table的第一个语句用来对列进行选择,由于我们这里需要对所有列进行统计,所以不需要进行任何操作。 keyby用来进行分组,是整个代码的核心。先来看keyby = ....整个代码的执行顺序是:先选择行(逗号空白行),再分组(keyby语句),最后进行组间统计(num语句)。 我们的答案中,行、列以及分组三条语句各占一行,实际上这仅仅是为了让代码更直观。...如果你愿意,data.table允许你把所有的代码都写在同一行,就像这样: 下期预告 在下一期,我们会继续带来剩余题目的解答~ 大猫的R语言课堂 我是大猫,一个高中读文科但却在代码、数学的路上狂奔不止的

    2.8K41

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!...找到合适的packages并学习使用它,绝对会让我们数据分析工作事半功倍! 我们有没有发现dylyr包中函数使用的一些规律? 有的!...作为课代表的我来帮大家简单的总结一下: 我们都知道R有个令人诟病的缺点就是跑起来耗内存,data.table相对于dplyr 更快、更节省内存了!...以上讲的这些只是我工作中data.table用得最多的功能,它的强大之处还远远不止这些!如果你想深入,可以去官网下载文档,你绝对值得拥有!...(反正我用了data.table以后就再也不想用R里面基础包自带的函数了,今天就黑到这里,匿了~) ——Copyright Reserved by Erin

    2.9K70

    Matt Dowle 演讲节选(二)

    上期回顾 上次讲到 Matt 在转移到 R 阵营之后,开始思考下面那个无法在 S-PLUS 上面实现的命令,能否在 R 中实现呢?...选择、运算、分组,三个截然不同的命令被完美的整合到了DF[i, j, by]的语法中,更妙的是,上一步运算的结果可以直接作为下一步的输入数据集!...一个更极端的例子是,加入你在 4G 内存中 装下了一个 3G 的数据集,这时你想要删去其中的一列都是不可能的,因为在data.frame中,哪怕删除操作都会导致数据集的复制!...(大猫:在最新版本的 R 中,这个问题已经明显缓解,但是这时已经过去了5年多)而在data.table中,一切都是那么自然: > DF[, colToDelete := NULL] 哪怕你的数据集有...在这个2012年(注意dplyr的最早版本在2016年!)的帖子中,一个用户需要处理以下数据集(这里只显示前6行) ? 他想首先按照gene_id分组,然后分别计算特定变量的极值和均值。

    1.3K40

    「R」数据操作(八):dplyr 的 do, do, do

    与data.table类似,dplyr也提供了do()函数来对每组数据进行任意操作。 例如将diamonds按cut分组,每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是,我们需要为操作指定一个名称,以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算 ,我们需要使用.来表示数据。...Good #> 3 Very Good #> 4 Premium #> 5 Ideal 注意结果创建了一个新列,...该列不是典型的原子向量,每个元素都是模型的结果,包含线性回归对象的列表。...假如我们需要分析toy_tests数据,要对每种产品的质量和耐久性进行汇总。如果只需要样本数最多的3个测试记录,并且每个产品的质量和耐久性是经样本数加权的平均数,下面是做法。

    2K31

    表达芯片数据分析2

    #把R包里的注释表格变成数据框}# 方法2 读取GPL网页的表格文件,按列取子集##https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?...::fread("GPL570-55999.txt",data.table=F, skip=17) colnames(b) #下一行代码里的列名是从colnames(b)...的输出结果里复制的 ids2 = b[,c("ID","Gene Symbol")] colnames(ids2) = c("probe_id","symbol") #和R包里的列名保持一致 #下面三句代码是将没有对应到基因的探针和对应多个基因的探针去掉...,多分组数据的分析后面另讲# 生成Group向量的三种常规方法,三选一,选谁就把第几个逻辑值写成T,另外两个为F。...如果三种办法都不适用,可以继续往后写else ifif(F){ # 第一种方法,有现成的可以用来分组的列 }else if(F){ # 第二种方法,眼睛数,自己生成 Group = rep(c(

    45420
    领券