GTX.Zip--基因领域唯一100%安全无误的企业级压缩大咖!

公告:嚷嚷了这么久的”让基因测序走入寻常百姓家“的口号可能就更快实现啦!

ngs测序贵吗?

目前国内约莫有85台illumina的最新版novaseq测序仪,通常可以做到70元/Gbp的单价,一个人重测序标准的30X,也就是(3G X 30)90Gbp,才6300块钱而已。一个人标准的200X外显子测序,也就是(0.05G X 200) 10Gbp的数据,才700块钱而已。但是拿到数据只是噩梦的开始,首先数据在公司需要邮寄或者ftp下载方式才能到达自己手上,人重测序的90Gbp碱基也是2070亿个字母应该占计算机的192.7838G的空间,使用gzip压缩后也还需要耗费70G左右的硬盘空间。而后续的生物信息学流程会多次使用不同的软件产生各种各样的中间文件,不仅耗时,更耗费存储空间。

这一点我在:【直播】我的基因组(四):计算资源的准备 多次强调过。

显而易见,庞大的测序数据量及其所产生的数据拷贝、处理时间、硬盘资源的占用是测序价格和数据服务速度的一道关卡,毕竟——

不过,值得提醒的是,我所公布的价格是基于2018年8月的市场,如果你这个时候拿不到这个测序价格,不妨在生信技能树后台找我聊聊,或许我可以帮你哈!

解决方案呢?

敲 · 黑 · 板

划重点:在Jimmy大神的挖掘之下,终于找到了打破武林次元壁的宝典——GTX.Zip!

这款压缩率高到可怖的软件出自2016年GCTA风云挑战赛世界纪录创造者Genetalks人和未来团队。生信技能树携手Genetalks于2018-08-23一起开办了“GTX压缩技术秀”直播交流课。

下图很清晰的展现了,运用GTX.Zip对fa数据的压缩还不到传统的gzip压缩的1/6空间,压缩耗时时也直接减少到原来的11%,这样整体花费能低至原来的13% 。

实战体验

小编作为小白,在仰慕大侠风范之余,体验了一把飞一样的感觉,喜欢的盆友们,可以根据以下操作一起试一试~

1

首先打开公司提供的GTZ github地址:github.com/genetalks/gtz 或 GTZ测试接口:www.gtz.io,找到软件下载链接http://gtz.io/gtz_public_0.2.2k_ubuntu_release.tgz

2

输入以下代码即可

wget http://gtz.io/gtz_public_0.2.2k_ubuntu_release.tgz   #常规下载软件
tar zxvf gtz_public_0.2.2k_ubuntu_release.tgz -C ./   #解压
cd gtz_public_0.2.2k_ubuntu_release/    #进入解压文件夹目录
./gtz -h   #调出帮助文件
./gtz filenames.fa -o ../filenames.fa.gtz

哇咧,3.0G的hg.19参考基因组竟然只用了1分钟!快一起试试吧!

当然,如果你觉得看文字版演示不过瘾,我还录制了一个gif动画,希望你能喜欢。(下面的gif动画需要网速哦

还有疑问肿么办?

这个技术实在是太牛,所以生信技能树携手Genetalks于2018-08-23一起开办了“GTX压缩技术秀”直播交流课。参课人数高达800,大家都兴致勃勃的了解压缩细节,而且问答环节也十分火爆,我随意摘抄几个问题如下:

请问数据压缩相关技术有技术认证么,类似于网络上的安全认证。

常用的生物信息学数据格式,比如fa,fq,vcf,sam,gtf 哪一种在时候你们的工具来压缩得到的压缩率最高呢?

你们的商业软件和github开源的软件有什么区别吗?

压缩以后的.gz文件还能不能继续压缩呢?这样无限循环是不是可以压缩没掉?

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-08-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏知晓程序

有了这个小程序,三十晚上的祝福再多,你也能脱颖而出

虽然不同的地方过春节的方式不一样,但是有一项肯定是必备的:拜年。从短信的流行开始,发送新年祝福语成为了中国人拜年的一个重要方式。

973
来自专栏程序员的诗和远方

20180826_ARTS_week09

第一种方法,把数字转成字符串,再变成数组,倒转,然后再变回字符串。 很明显,这个方法效率不高。

961
来自专栏Java学习网

每个程序员都需要学习 JavaScript 的7个理由

每个程序员都需要学习 JavaScript 的7个理由 最近在和招聘经理交流现在找一个好的程序员有多难的时候,我渐渐意识到了现在编程语言越来越倾重于JavaS...

2429
来自专栏vue学习

读《学习之道》— 搭建组块对抗发懵

621
来自专栏coding

写下这行代码时,只有我和上帝知道是怎么回事01.烂代码的路径依赖02.对于烂代码应采取零容忍03.代码规范的重要性04.文档的重要性

"算了,这里的代码有说不清的玄机,重构相当于在给自己挖更大的坑,还是按照原来的写法吧..."

883
来自专栏程序人生

浪费内存?多大个事?

遥想盖子当年,MS 红火了,谈笑间,640k 内存足矣。 - 程序君 现在已经不是从指缝中扣内存的时代了。bit 在主流的解释型语言中要么失了踪迹,要么被作为...

4488
来自专栏日常学python

Python:忽如一夜春风来,千树万树梨花开

我的主人是荷兰人,叫做Guido Van Rossum, 这是个不大容易念的名字,估计很多人现在也不知道怎么去发音。 球迷老刘看到Van ,总是想起范·巴斯滕。

1362
来自专栏Java学习网

10个使用Java最广泛的现实领域

10个使用Java最广泛的现实领域 如果你是一个初学者,刚刚开始学习Java,你可能会想Java有什么用呢?除了Minecraft貌似也看不到其他用Java写的...

3408
来自专栏大数据挖掘DT机器学习

利用pthon爬虫和数据分析在618抢购Macbook pro

好久没玩点有意思的了,这次借618这个购物节,自己也要搞台mbp,顺便搞一波大新闻. 对某宝的其中四家店,再加上某东一家店,对比同一款机型,对价格进行监控...

5997
来自专栏程序人生

是时候想想该怎么删代码了

武林外传里秀才怼上姬无命,来了一段关于「我是谁」的精彩逼问。 我是谁?我生从何来,死往何处,我为何要出现在这个世界上?我的出现对这个世界来说意味着什么,是世界选...

36211

扫码关注云+社区

领取腾讯云代金券