问Linux下从不同分隔符的文本文件中提取列
EN

Stack Overflow用户

提问于 2013-11-14 00:55:06

回答 1查看 110.7K关注 0票数 33

我有非常大的基因型文件，基本上不可能在R中打开，所以我尝试使用linux命令行提取感兴趣的行和列。使用head/tail时，行很简单，但是我很难弄清楚如何处理列。

如果我尝试使用以下命令提取(比方说)第100-105个制表符或空格分隔的列

 cut -c100-105 myfile >outfile

如果每列中有多个字符的字符串，这显然不起作用。有没有办法用适当的参数修改cut，使其提取列中的整个字符串，其中列定义为空格或制表符(或任何其他字符)分隔？

发布于 2013-11-14 00:58:32

可以使用带有分隔符的cut，如下所示：

使用空格传递：

cut -d " " -f1-100,1000-1005 infile.csv > outfile.csv

使用tab delim：

cut -d$'\t' -f1-100,1000-1005 infile.csv > outfile.csv

我给出了cut的版本，在这个版本中您可以提取间隔列表...

希望它能帮上忙！

票数 11

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19959746

复制

相似问题

问Linux下从不同分隔符的文本文件中提取列EN