专栏首页新智元【远古生物复活】深度学习与生物大数据处理

【远古生物复活】深度学习与生物大数据处理

在地球漫长的进化中,我们人为地造成了很多悲剧:

渡渡鸟、长毛象

大海燕

袋狼

……

这些曾经平静生活在地球上的动物因为人类活动而骤然灭绝。如今更是每天都有100多个物种在走向灭亡。

我们不想孤独的生活在地球上,我们希望可以和这些生物和平共存。

现在,基因学给了我们新的希望,我们可以通过克隆复原这些动物了。只要从他们的化石标本上提取足够的DNA,找到基因数据进行分析,排列出完整的DNA样本,就有机会让这些灭绝的动物重新复活。因此建立生物基因医学体系十分重要。

深度学习加速生物大数据处理速度

随着生命科学的迅猛发展,生物医学领域的数据量呈指数形式增长,生物医学数据表现为数据量大(Volume)、多样化(Variety)、有价值(Value)、高速(Velocity)等特点。有学者指出,“生物学未来的新瓶颈在于大数据问题”。

一次人类基因测试实验最大可产生约600G原始数据,典型的医疗数据很容易达到PB级,如何更高效地处理这些数据,成为生物医学领域面临的迫切问题。

XSharp是曙光公司专为深度学习技术而开发的一款软件产品,分别从分布式并行系统优化、分布式并行机器学习执行模式优化、大规模机器学习算法工具集三个层面提供深度学习优化策略,帮助用户实现应用优化。

深度学习技术的发展,为大数据处理提供了一种全新方法。曙光公司联合中科院计算机所,在生物医学处理方面取得了长足进展,大大加速了生物大数据处理速度。

生物医学大数据独具特色

生物医学领域数据有其自身特点。

1.数据量大:生物医学领域数据量十分庞大。仅人类DNA信息就多达60ZB,若为每个中国公民完成基因测序,数据量将超过1000EB,如此庞大的数据量,无论是存储还是处理,都将是一场噩梦。如今,只需几千美元和几个小时,即可完成一个人基因组的解析,低廉高效的研究方式得到生物科学家们的青睐,大量的物种得以测序解析,使得生物研究进入的生物数据的海洋,而积累的原始数据也必将迅速增长。

2.数据多样化:测序仪器种类繁多,产生的数据格式也各不相同。同时,利用不同的生物信息分析软件或分析流程处理得到的结果也是千差万别。深度学习技术是一种全新的数据分析工具,可以在生物图像信息处理中发挥重要作用。

3.价值高:随着生物信息学的发展,越来越多有价值的信息从生物数据中挖掘出来,这些价值不仅体现在生物科研领域,而且已应用于农业、健康和医学等领域。

4.高速:生物医学数据量急剧增长的速度让人惊叹,而且数据的多样化和价值也必将在快速处理中得以体现。

目前的生物医学领域,高通量成像数据分析算法的时间复杂度为O(year),科学家希望通过交互式和高精度的并行计算平台,将时间复杂度降低为O(minutes),为实现这个目标,以“大数据+HPC”为理论基础的曙光XSharp软件成为生命科学大数据处理和分析的利器。

XSharp:成熟的深度学习实践平台

曙光XSharp软件整体分为算法接口、层级操作和虚拟后端三个逻辑层面,整体设计以加速应用为目标,为用户提供标准算法接口;利用网络层、分布式并行等层级操作,实现应用加速和优化;底层将传统的HPC硬件进行虚拟化,提供统一接口,完成深度学习的硬件实现。

1.算法接口

从Model、Rule、Activation、Metric等方面向应用提供标准算法接口。XSharp是一个开放平台,我们将深度学习的各种算法均集合到产品中,在具体实践中可以自由增加、删除、修改、裁剪各种算法模块,快速相应用户需求。

2.层级操作

从网络和分布式并行两个方面分别提供算法优化策略。网络层内容包含数据、通信、开销、权重等;分布式并行包含数据、模型、流水线等优化策略。

3.虚拟后端

以编程和HPC硬件为基础,包括并行编程MPI、大数据分布式处理框架Spark、GPU编程语言CUDA、RDMA、存储技术等组成。

曙光XSharp软件是一套完整的深度学习实践平台,基于此,用户可以自由开发满足自身需求的应用,调用成熟的算法接口和数学库,降低开发难度,缩短开发周期。

XSharp开创生物科学大数据的未来

在生物图像处理中,反卷积扮演着重要的角色,在胰岛发育及功能载体成像研究中,实验过程需要处理2300张、624GB图像数据,借助传统的Fiji反卷积库处理,需要4.7年才能完成。曙光使用XSharp软件平台,将反卷积过程移植到4颗GPU上并发执行,仅需2天即可完成数据处理,结果令人叹为观止。

在基于SVM的Flash自动检测流程项目中,曙光科学家使用XSharp软件,利用支持向量机技术进行训练,实际效果可以在1s之内完成图片自动检测,效率提高了300倍以上。

深度学习在生物领域取得的进展让人振奋。现阶段XSharp的应用主要集中在高维多模式生物图像分布式数据系统、海量生物图像数据的深度挖掘流程和生物图像处理数据密集型算法加速等项目中。不仅如此,曙光公司正在大力推动XSharp在其他领域的应用和发展,帮助用户了解企业大数据的价值所在,利用数据为用户创造更多价值。

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 从机器学习到深度学习

    最近天宝在辛苦的找工作,好多热门的工作都有涉及到了深度学习,AI什么的。为此呢,便想着写点什么,解释一下什么是深度学习。然而呢,说来话长,要想从零开始了解深度学...

    企鹅号小编
  • 深度学习的这些坑你都遇到过吗?神经网络11大常见陷阱及应对方法

    如果你的神经网络不工作,该怎么办?本文作者列举了搭建神经网络时可能遇到的11个常见问题,包括预处理数据、正则化、学习率、激活函数、网络权重设置等,并提供解决方法...

    企鹅号小编
  • 解读丨2017科技发展的15大趋势

    导读:目前,我们所了解到的信息是:世界上每年有 120 万人死于车祸,自动驾驶汽车(AVs)在这样的背景之下应运而生。科技在明年将会发生巨大的改变。想要了解前沿...

    钱塘数据
  • 【业界】当前的深度学习框架不会改变机器学习的能力增长

    框架只是在应用程序中广泛采用机器学习的中间步骤。我们需要的是更多的视觉产品,而这些可能还需要几年的时间。 ? 当前的机器学习(ML)框架是ML的产品化过程中需要...

    AiTechYun
  • 人工智能创新有望解决大数据难题

    导读:数据科学界经常开玩笑说,专家系统好比是过时的恐龙,它们很有意思,但是就现代应用而言不切实际。我完全不同意,人工智能领域没有哪一项进步完全取代得了专家系统的...

    钱塘数据
  • 【第二期】一次学透java.io

    java.io是新手学习Java的第一个难点。因为这个package中的东西比较多,也比较复杂,另外加上一些接口太过于面向对象了,更加增大了学习的难度。这一期,...

    海纳
  • 了解学习速率以及它如何提高深度学习的表现

    学习速率是深度学习中的一个重要的超参数,如何调整学习速率是训练出好模型的关键要素之一。这篇文章将着重说明以下几点: 什么是学习速率? 它的意义是什么? 如何系统...

    AiTechYun
  • 修饰者模式

    java.io 这个包里有一个类,比较特别,这就是BufferedReader。我们从JDK的源码里,找到它的实现: public class Buffered...

    海纳
  • 零基础入门机器学习

    这篇文章的初衷是很大一部分朋友都想了解如何入门 / 转行机器学习,搭上人工智能这列二十一世纪的快车。 本文的宗旨是: 1. 指出一些自学的误区 2. 不过多的...

    刘盼
  • JVM杂谈之JIT

    JIT技术是JVM中最重要的核心模块之一。因为不断有朋友问起,Java到底是怎么运行的?既然Hotspot是C++写的,那Java是不是可以说运行在C++之上呢...

    海纳

扫码关注云+社区

领取腾讯云代金券