【远古生物复活】深度学习与生物大数据处理

在地球漫长的进化中,我们人为地造成了很多悲剧:

渡渡鸟、长毛象

大海燕

袋狼

……

这些曾经平静生活在地球上的动物因为人类活动而骤然灭绝。如今更是每天都有100多个物种在走向灭亡。

我们不想孤独的生活在地球上,我们希望可以和这些生物和平共存。

现在,基因学给了我们新的希望,我们可以通过克隆复原这些动物了。只要从他们的化石标本上提取足够的DNA,找到基因数据进行分析,排列出完整的DNA样本,就有机会让这些灭绝的动物重新复活。因此建立生物基因医学体系十分重要。

深度学习加速生物大数据处理速度

随着生命科学的迅猛发展,生物医学领域的数据量呈指数形式增长,生物医学数据表现为数据量大(Volume)、多样化(Variety)、有价值(Value)、高速(Velocity)等特点。有学者指出,“生物学未来的新瓶颈在于大数据问题”。

一次人类基因测试实验最大可产生约600G原始数据,典型的医疗数据很容易达到PB级,如何更高效地处理这些数据,成为生物医学领域面临的迫切问题。

XSharp是曙光公司专为深度学习技术而开发的一款软件产品,分别从分布式并行系统优化、分布式并行机器学习执行模式优化、大规模机器学习算法工具集三个层面提供深度学习优化策略,帮助用户实现应用优化。

深度学习技术的发展,为大数据处理提供了一种全新方法。曙光公司联合中科院计算机所,在生物医学处理方面取得了长足进展,大大加速了生物大数据处理速度。

生物医学大数据独具特色

生物医学领域数据有其自身特点。

1.数据量大:生物医学领域数据量十分庞大。仅人类DNA信息就多达60ZB,若为每个中国公民完成基因测序,数据量将超过1000EB,如此庞大的数据量,无论是存储还是处理,都将是一场噩梦。如今,只需几千美元和几个小时,即可完成一个人基因组的解析,低廉高效的研究方式得到生物科学家们的青睐,大量的物种得以测序解析,使得生物研究进入的生物数据的海洋,而积累的原始数据也必将迅速增长。

2.数据多样化:测序仪器种类繁多,产生的数据格式也各不相同。同时,利用不同的生物信息分析软件或分析流程处理得到的结果也是千差万别。深度学习技术是一种全新的数据分析工具,可以在生物图像信息处理中发挥重要作用。

3.价值高:随着生物信息学的发展,越来越多有价值的信息从生物数据中挖掘出来,这些价值不仅体现在生物科研领域,而且已应用于农业、健康和医学等领域。

4.高速:生物医学数据量急剧增长的速度让人惊叹,而且数据的多样化和价值也必将在快速处理中得以体现。

目前的生物医学领域,高通量成像数据分析算法的时间复杂度为O(year),科学家希望通过交互式和高精度的并行计算平台,将时间复杂度降低为O(minutes),为实现这个目标,以“大数据+HPC”为理论基础的曙光XSharp软件成为生命科学大数据处理和分析的利器。

XSharp:成熟的深度学习实践平台

曙光XSharp软件整体分为算法接口、层级操作和虚拟后端三个逻辑层面,整体设计以加速应用为目标,为用户提供标准算法接口;利用网络层、分布式并行等层级操作,实现应用加速和优化;底层将传统的HPC硬件进行虚拟化,提供统一接口,完成深度学习的硬件实现。

1.算法接口

从Model、Rule、Activation、Metric等方面向应用提供标准算法接口。XSharp是一个开放平台,我们将深度学习的各种算法均集合到产品中,在具体实践中可以自由增加、删除、修改、裁剪各种算法模块,快速相应用户需求。

2.层级操作

从网络和分布式并行两个方面分别提供算法优化策略。网络层内容包含数据、通信、开销、权重等;分布式并行包含数据、模型、流水线等优化策略。

3.虚拟后端

以编程和HPC硬件为基础,包括并行编程MPI、大数据分布式处理框架Spark、GPU编程语言CUDA、RDMA、存储技术等组成。

曙光XSharp软件是一套完整的深度学习实践平台,基于此,用户可以自由开发满足自身需求的应用,调用成熟的算法接口和数学库,降低开发难度,缩短开发周期。

XSharp开创生物科学大数据的未来

在生物图像处理中,反卷积扮演着重要的角色,在胰岛发育及功能载体成像研究中,实验过程需要处理2300张、624GB图像数据,借助传统的Fiji反卷积库处理,需要4.7年才能完成。曙光使用XSharp软件平台,将反卷积过程移植到4颗GPU上并发执行,仅需2天即可完成数据处理,结果令人叹为观止。

在基于SVM的Flash自动检测流程项目中,曙光科学家使用XSharp软件,利用支持向量机技术进行训练,实际效果可以在1s之内完成图片自动检测,效率提高了300倍以上。

深度学习在生物领域取得的进展让人振奋。现阶段XSharp的应用主要集中在高维多模式生物图像分布式数据系统、海量生物图像数据的深度挖掘流程和生物图像处理数据密集型算法加速等项目中。不仅如此,曙光公司正在大力推动XSharp在其他领域的应用和发展,帮助用户了解企业大数据的价值所在,利用数据为用户创造更多价值。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2015-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯高校合作

【回顾】SIGGRAPH Asia 2014深圳展会都有神马?

上腾讯街景,看SIGGRAPH Asia 2014实景盛况   12月3日~6日, SIGGRAPH Asia2014亚洲电脑图像和互动技术展览及会议在深圳会会...

2985
来自专栏奇点大数据

人工智能时代的知识:核心概念与基本内容

任何一条信息都可以作为理解其他信息的工具。因此,在设计课程时,我们如何运用“知识就是工具”这一理念呢?关键在于鉴别和明确聚焦学科内和跨学科的核心概念,这些概念是...

1422
来自专栏ATYUN订阅号

非语言交流的新领域:将机器人的情绪映射为触觉表达

我们认为人类非常聪明,因为人类拥有多种不同的沟通方式。我们发声,我们有富有表现力的面孔,我们可以做手势。我们似乎有很多交流方式,但我们错过了一些对动物来说很常见...

972
来自专栏腾讯高校合作

【直播现场】SIGGRAPH Asia 2014深圳展会都有神马?

上腾讯街景,看SIGGRAPH Asia 2014实景盛况   12月3日~6日, SIGGRAPH Asia2014亚洲电脑图像和互动技术展览及会议在深圳会会...

3553
来自专栏ATYUN订阅号

斯坦福大学开放AI挑战赛,旨在解决医疗问题

斯坦福大学最近宣布了一项旨在解决生物力学问题的众包竞赛。“AI for Prosthetics”挑战的参与者将建立能够预测患者在获得假肢后如何行走的模型。

1352
来自专栏AI科技评论

AI的发展已经失去了方向?人工智能哲学学家Aaron Sloman IJCAI演讲

Aaron Sloman专注人工智能哲学领域有几十年了,这项学科认为人们应该从根本上通过概念化自然界中的物体,为AI研究打下基础,Sloman还认为,现在的AI...

2696
来自专栏大数据文摘

[干货] 一个数据科学家的新年计划

15510
来自专栏新智元

《AI寒冬将至》作者:人工智能存在十大问题

【新智元导读】不久前,一篇题为《AI寒冬将至》的文章火了,引发AI领域专家学者、研究人员、学生甚至吃瓜群众的大量讨论。该文对有关深度学习的炒作提出批评,认为深度...

580
来自专栏量子位

想提高演讲的姿势?这两个AI项目要让你征服全场

允中 编译整理 量子位 出品 | 公众号 QbitAI ? 标题说的姿势,的的确确指的是姿势。 本周末的Disrupt SF hackathon环节中 ,有这样...

3707
来自专栏云计算D1net

云计算的小兄弟:雾计算和霾计算

云计算成名较早,现在是大名鼎鼎,经过这几年的努力,俨然成为了科学技术界的一名当红巨星。正所谓人红是非多,不少人也是盯着云计算,眼睛里揉沙子,找云计算身上的弱点。...

3804

扫码关注云+社区