前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信(五)awk求取某一列的平均值

生信(五)awk求取某一列的平均值

作者头像
一只羊
发布2019-07-27 18:59:03
2.1K0
发布2019-07-27 18:59:03
举报
文章被收录于专栏:生信了

关键词:awk

awk是生信人必须要掌握的命令行工具。为什么?因为它太强大了。我们举一个例子来说明。

假设我们有一个1000万行的文件,大概长这样:

怎么求第四列的平均数呢?

Python版本

我们可以用几行Python代码解决问题,比如这样:

其耗时:

R版本

用R来做计算也是很适合的,比如像这样:

其耗时:

可以看出R耗时非常久,我想一个重要原因就是R在加载文件时“自动识别”了每一列的数据类型,比如是字符串类型还是数字类型。这个过程比较耗时。当然,R语言本身就非常慢,这也是很出名的!

awk版本

awk用一行代码就可以解决问题,像这样(注意耗时):

至此,我们可以看出,awk代码简单,但是性能却不差!在同样的机器上处理同样的文件,awk的运行时间是Python的一半左右,是R的大概十分之一。可以说,awk已经非常快了!

C版本

都说C快,让我们看看到底有多快。代码如下:

其耗时:

可以看出,C的版本也仅比awk的稍快一点点。但是,C的代码复杂多了!由此,我们可以粗略比较出awk是一个非常完美的文本处理工具!

如果有任何问题,欢迎交流!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信了 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
命令行工具
腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档