我有非常大的基因型文件,基本上不可能在R中打开,所以我尝试使用linux命令行提取感兴趣的行和列。使用head/tail时,行很简单,但是我很难弄清楚如何处理列。
如果我尝试使用以下命令提取(比方说)第100-105个制表符或空格分隔的列
cut -c100-105 myfile >outfile
如果每列中有多个字符的字符串,这显然不起作用。有没有办法用适当的参数修改cut,使其提取列中的整个字符串,其中列定义为空格或制表符(或任何其他字符)分隔?
发布于 2013-11-14 00:58:32
可以使用带有分隔符的cut,如下所示:
使用空格传递:
cut -d " " -f1-100,1000-1005 infile.csv > outfile.csv
使用tab delim:
cut -d$'\t' -f1-100,1000-1005 infile.csv > outfile.csv
我给出了cut的版本,在这个版本中您可以提取间隔列表...
希望它能帮上忙!
https://stackoverflow.com/questions/19959746
复制相似问题