我有三列的基因组数据。第一栏是样本,第二栏是癌症类型,第三栏是机制。每个样本在第三行有一个或多个分配给它的基因机制(例如6 ecDNA)。目前,对于每个样本,每个机制有多行(例如,样本x有4行带有"6 ecDNA“机制的5行和"5删除”机制,其中每一行对应于为该样本发现的一种遗传畸变)。
我想知道是否有一种方法可以为一行中的每个示例显示数据中的所有类型的机制。
(例如样本癌症缩写机制)
x Bladder 6 ecDNA, 5 deletion
是否有方法将样本的机制类型压缩为一行?编辑:这是OG数据集的一个有代表性的表,示例示例为"x“和"y”。
样本,癌症缩写,机制
x, Bladder, 6 ecDNA
x, Bladder, 6 ecDNA
x, Bladder, 5 deletion
x, Bladder, 5 deletion
y, Osteosarcoma, 4 transposition
y, Osteosarcoma, 4 transposition
y, Osteosarcoma, 5 deletion
y, Osteosarcoma, 6 ecDNA
……
发布于 2021-06-26 14:33:22
使用米勒,如果输入是CSV,则可以运行
mlr --c2t -N nest --implode --values --across-records --nested-fs "," -f 3 then clean-whitespace input.csv
为了拥有
x Bladder 6 ecDNA,6 ecDNA,5 deletion,5 deletion
y Osteosarcoma 4 transposition,4 transposition,5 deletion,6 ecDNA
我使用的输入文件
x,Bladder,6 ecDNA
x,Bladder,6 ecDNA
x,Bladder,5 deletion
x,Bladder,5 deletion
y,Osteosarcoma,4 transposition
y,Osteosarcoma,4 transposition
y,Osteosarcoma,5 deletion
y,Osteosarcoma,6 ecDNA
如果您想要唯一的值,命令是
mlr --c2p -N uniq -a then nest --implode --values --across-records --nested-fs "," -f 3 then clea
n-whitespace input.csv
https://unix.stackexchange.com/questions/655755
复制相似问题