【远古生物复活】深度学习与生物大数据处理

在地球漫长的进化中,我们人为地造成了很多悲剧:

渡渡鸟、长毛象

大海燕

袋狼

……

这些曾经平静生活在地球上的动物因为人类活动而骤然灭绝。如今更是每天都有100多个物种在走向灭亡。

我们不想孤独的生活在地球上,我们希望可以和这些生物和平共存。

现在,基因学给了我们新的希望,我们可以通过克隆复原这些动物了。只要从他们的化石标本上提取足够的DNA,找到基因数据进行分析,排列出完整的DNA样本,就有机会让这些灭绝的动物重新复活。因此建立生物基因医学体系十分重要。

深度学习加速生物大数据处理速度

随着生命科学的迅猛发展,生物医学领域的数据量呈指数形式增长,生物医学数据表现为数据量大(Volume)、多样化(Variety)、有价值(Value)、高速(Velocity)等特点。有学者指出,“生物学未来的新瓶颈在于大数据问题”。

一次人类基因测试实验最大可产生约600G原始数据,典型的医疗数据很容易达到PB级,如何更高效地处理这些数据,成为生物医学领域面临的迫切问题。

XSharp是曙光公司专为深度学习技术而开发的一款软件产品,分别从分布式并行系统优化、分布式并行机器学习执行模式优化、大规模机器学习算法工具集三个层面提供深度学习优化策略,帮助用户实现应用优化。

深度学习技术的发展,为大数据处理提供了一种全新方法。曙光公司联合中科院计算机所,在生物医学处理方面取得了长足进展,大大加速了生物大数据处理速度。

生物医学大数据独具特色

生物医学领域数据有其自身特点。

1.数据量大:生物医学领域数据量十分庞大。仅人类DNA信息就多达60ZB,若为每个中国公民完成基因测序,数据量将超过1000EB,如此庞大的数据量,无论是存储还是处理,都将是一场噩梦。如今,只需几千美元和几个小时,即可完成一个人基因组的解析,低廉高效的研究方式得到生物科学家们的青睐,大量的物种得以测序解析,使得生物研究进入的生物数据的海洋,而积累的原始数据也必将迅速增长。

2.数据多样化:测序仪器种类繁多,产生的数据格式也各不相同。同时,利用不同的生物信息分析软件或分析流程处理得到的结果也是千差万别。深度学习技术是一种全新的数据分析工具,可以在生物图像信息处理中发挥重要作用。

3.价值高:随着生物信息学的发展,越来越多有价值的信息从生物数据中挖掘出来,这些价值不仅体现在生物科研领域,而且已应用于农业、健康和医学等领域。

4.高速:生物医学数据量急剧增长的速度让人惊叹,而且数据的多样化和价值也必将在快速处理中得以体现。

目前的生物医学领域,高通量成像数据分析算法的时间复杂度为O(year),科学家希望通过交互式和高精度的并行计算平台,将时间复杂度降低为O(minutes),为实现这个目标,以“大数据+HPC”为理论基础的曙光XSharp软件成为生命科学大数据处理和分析的利器。

XSharp:成熟的深度学习实践平台

曙光XSharp软件整体分为算法接口、层级操作和虚拟后端三个逻辑层面,整体设计以加速应用为目标,为用户提供标准算法接口;利用网络层、分布式并行等层级操作,实现应用加速和优化;底层将传统的HPC硬件进行虚拟化,提供统一接口,完成深度学习的硬件实现。

1.算法接口

从Model、Rule、Activation、Metric等方面向应用提供标准算法接口。XSharp是一个开放平台,我们将深度学习的各种算法均集合到产品中,在具体实践中可以自由增加、删除、修改、裁剪各种算法模块,快速相应用户需求。

2.层级操作

从网络和分布式并行两个方面分别提供算法优化策略。网络层内容包含数据、通信、开销、权重等;分布式并行包含数据、模型、流水线等优化策略。

3.虚拟后端

以编程和HPC硬件为基础,包括并行编程MPI、大数据分布式处理框架Spark、GPU编程语言CUDA、RDMA、存储技术等组成。

曙光XSharp软件是一套完整的深度学习实践平台,基于此,用户可以自由开发满足自身需求的应用,调用成熟的算法接口和数学库,降低开发难度,缩短开发周期。

XSharp开创生物科学大数据的未来

在生物图像处理中,反卷积扮演着重要的角色,在胰岛发育及功能载体成像研究中,实验过程需要处理2300张、624GB图像数据,借助传统的Fiji反卷积库处理,需要4.7年才能完成。曙光使用XSharp软件平台,将反卷积过程移植到4颗GPU上并发执行,仅需2天即可完成数据处理,结果令人叹为观止。

在基于SVM的Flash自动检测流程项目中,曙光科学家使用XSharp软件,利用支持向量机技术进行训练,实际效果可以在1s之内完成图片自动检测,效率提高了300倍以上。

深度学习在生物领域取得的进展让人振奋。现阶段XSharp的应用主要集中在高维多模式生物图像分布式数据系统、海量生物图像数据的深度挖掘流程和生物图像处理数据密集型算法加速等项目中。不仅如此,曙光公司正在大力推动XSharp在其他领域的应用和发展,帮助用户了解企业大数据的价值所在,利用数据为用户创造更多价值。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据挖掘】如何系统地学习数据挖掘?

问题:如何系统地学习数据挖掘? 虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉...

2488
来自专栏机器之心

Python扩大领先优势,PyTorch仅占6.4%:2018年数据科学语言&工具排名

1196
来自专栏大数据文摘

职位情报局 | 1.65亿天使轮融资背后,林元庆需要怎样的AI人才?

1553
来自专栏大数据文摘

警惕大数据中的“陷阱”

1363
来自专栏CSDN技术头条

自然语言处理的十个发展趋势

7月22-23日,第三届中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大开幕。会上,哈尔滨工业大学刘挺教授对自然语言处理的发展趋势做了一次精彩的归纳...

1939
来自专栏CDA数据分析师

【干货】如何系统地学习数据挖掘?

问题:如何系统地学习数据挖掘? 虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉...

2088
来自专栏大数据文摘

这个AI“魔镜”能测试你的性格,并号称要把结果告知你老板 | 墨尔本大学最新研究

童话故事中的“魔镜”能给你的颜值评分,而墨尔本大学的研究人员近来设计了一种AI“魔镜”,运用人工智能根据人们的面部特征来分析他们的性格。

882
来自专栏程序你好

机器学习等新技术正在重塑工厂的工作方式

在过去的三十年里,工厂经历了翻天覆地的变化。80年代和90年代,工业自动化和机器人走在了前列。在过去的十年里,多种改变游戏规则的技术正在重塑工厂。机器学习、物联...

1003
来自专栏AI科技评论

Jeff Dean两年AMA全盘点:26个关于谷歌大脑和机器学习未来的问题

AI科技评论按:前两天,谷歌大脑团队又在Reddit上做了一次AMA(Ask me anything)活动。 去年8月时候谷歌大脑团队也在Reddit上做过同样...

32710
来自专栏新智元

【LeCun vs Marcus巅峰论战】AI学习是否需要类似人类的认知结构?

【新智元导读】人工智能和心理学领域的两位顶尖研究者,纽约大学 Yann LeCun 和 Gary Marcus 就 AI 是否需要类似人类和动物的内置的认知机制...

3386

扫码关注云+社区