【NVIDIA GTC2022】一文说清楚NVIDIA在AI医疗方面的进展和企图心

GPUS Lady

发布于 2022-04-11 12:48:52

6270

发布于 2022-04-11 12:48:52

本文节选整理自NVIDIA GTC2022讲座[S42036]

医院、手术室、基因组测序中心和制药公司产生大量数据，为构建可以预测、理解、学习和行动的人工智能模型、平台和机器人系统创造了机会。本讲座让你了解生命科学研究人员、开发人员和医疗设备制造商如何使用 NVIDIA Clara 在医疗保健交付和药物发现方面取得突破的最新信息。

我们发明了 nvidia clara 作为计算平台，使医疗保健行业能够利用其最重要的数据并应用最新的计算技术，如今医疗保健数据占全球所有数据的 30%，到 2025 年，医疗保健数据将以最高的复合年增长率增长，占全球所有数据的 36%，带来最先进的加速计算、人工智能模拟和高级图形，数据可以转化为机器人助手、药物设计师和早期检测系统。

nvidia clare 是我们的人工智能计算平台，我们正在开发特定领域的工具人工智能模型加速应用程序和框架，以应对行业最重要的挑战：

MONAI 是一个特定领域的医疗保健开源培训框架，

nvidia FLARE 是一个开源框架，用于分布式训练和隐私保护人工智能模型开发，旨在解决医疗数据挑战，但每个行业都需要一个范式clara 在成像药物发现、自然语言处理和计算机视觉方面拥有 40 多个预训练模型，我们的 nvidia Clara Parabricks 是一套企业基因组学分析软件，最近宣布的nvidia clara Holoscan 是硬件系统到系统软件和 sdks 的全栈平台，正在推动人工智能软件定义的医疗设备革命.

nvidia clara 软件套件和全栈平台为行业提供了加速发现创建新应用程序和生成新业务模型所需的工具.

让我们来看看MONAI。到现在为止，端到端解决人工智能开发已被证明是非常有价值的，它吸引了可能不是人工智能专家的医疗保健行业专家，MONAI label 使用人工智能帮助来减少注释新数据集花费的时间和精力，并通过不断从用户交互中学习来训练模型以完成特定任务，当我提供数据中心规模的特定领域模型架构的训练时，例如用于医学成像分割问题的 3d 单元，高级训练方法（例如使用 automl）神经架构搜索，根据给定数据自动找到最佳模型架构，这极大地提高了研究人员的生产力，monai 贡献者确保跟上自我监督训练管道等最先进的方法来探索视觉转换器，并将它们应用于下游任务，一旦模型经过训练，monai 就可以通过打包轻松部署到现实世界环境中，将其融入临床应用，直接插入医疗医院的基础设施，

monai 是一个由社区主导的开源联盟，由全球医疗人工智能领域的领导者组成，培养开放研究并加快创新步伐，MONAI 的全球整合增加了它在每个云上的可访问性，并被打包到熟悉的开源工具中。现在每个月下载量接近五万次，是一年前下载量的7.5倍，研发正在升温！

在过去的五年里，新的仪器传感器、机器人技术和自动化创造了数字生物学革命，测序仪、显微镜、诊断成像设备可以以更高的吞吐量和分辨率捕捉生物学，特别是在过去二十年中，基因组测序技术取得了巨大的进步，这一过程涉及到dna从活体转化有机体变成数字信息，可以通过计算机读取、处理和分析，DNA测序的基础上的数字生物学已经降低了成本低于一千美元，激发了全球趋势，产生了超过40兆字节的基因组数据。

到2025年，数字化基因组数据的可用性、广度和复杂性正在迅速增长，新的测序仪将进入市场，用于短读和长读测序，nvidia正在与所有测序公司合作，以改进和加快碱基调用的初级分析阶段，今天的基因组学应用趋向于结合使用长读和短读数据，对复杂的分析应用产生了新的需求，全球项目正在进行，以对所有活生物体进行测序，创建特定人群的参考基因组，随着数字生物学数据库从PB增长到EB，现代信息科学方法和人工智能将推动药物发现的突破，集中数百万人类基因组及其医疗结果数据，并快速对重症监护患者进行排序，以确定有治疗的罕见或遗传疾病，合成生物学不仅对医疗保健，而且对农业、能源制造和气候科学具有广泛影响。

在过去的六个月里，加州大学圣克鲁斯分校和谷歌的一个研究团队开发了一个基于深度学习的分析管道，为牛津大学纳米核心数据生成了最先进的变体调用结果。该团队显示，基于长里德纳米核心的方法在整个基因组规模上优于行业标准的短读单核苷酸变体识别，同时在临床上也是如此将危重病人测序时间从今天的两周缩短到几个小时的测序试验正在斯坦福大学进行。在Ewan Ashley博士的带领下，nvidia与斯坦福大学电气工程师博士生Sneha Goenka联手，在整个团队的努力下，帮助加快了管道的速度。缩短了Ashley博士患者的端到端测序时间，在1月份创下了吉尼斯世界纪录，从之前的14个半小时缩短到7个小时18分钟。

nvidia 深受这项工作的启发，我们与 stanford 和 oxford nanopore 合作，将这种能力普及到各地的临床研究中，今天我们宣布推出 UNAP，这是超快速纳米孔分析管道的容器化版本，可在单个 dgx 上端到端运行a100 节点，大大减少了计算基础设施，因此可以直接在诊所进行测序。牛津nanopore prometheion现在可以本地进行局部基址呼叫和对齐，同时进行测序，使实时测序成为现实，这不仅大大降低了计算基础设施的复杂性，而且还显著降低了每名患者的计算成本三分之二，从500多美元降至200美元以下，我们将继续与斯坦福大学（stanford）和牛津大学（oxford nanopore）合作，这样你就可以在打盹的时候对整个基因组进行测序了。

随着生物和化学领域生物医学数据量的不断增加，需要开发新的分析方法和方法。将人工智能应用到数字生物学中，是为了阐明人类历史上不断发展的生物医学知识，并以dna和蛋白质序列为语言。生物学已成为一门信息科学，致力于对数据进行端到端建模疾病途径、涉及的基因和药物-靶点相互作用，随着加速计算和人工智能的快速发展，我们现在拥有了模拟越来越复杂的生物过程和加快发现速度所需的计算规模.

仅在过去两年里，不列颠哥伦比亚省就获得了超过600亿美元的资金，该领域正在涌现出新的公司，他们正在建设人工智能药物发现平台，用500种经批准的疗法来解决超过10000种疾病。

让我们看一看过去几个月里发生的一些惊人的突破，首先是对一些研究的调查，deepminds dm21着手改善过去30年最流行的dft方法，用于预测化学、生物学和材料系统的性质，deepmind开发了一种机器学习的密度泛函，它能够精确地模拟复杂系统，如氢链和电荷dna碱基对，我们现在离普适泛函又近了一步，这可以让我们解决量子化学问题准确无误.

由慕尼黑大学和麻省理工学院的研究人员创建的 equibind 正在解决药物发现中的一个基本问题，即预测分子如何与蛋白质相互作用，有几个重要的量：分子结合的位置、活性位点、分子结合的方式、姿势，以及它的结合程度等，equibine 在姿势方面达到了最先进的水平，并且比Docking等竞争方法快得多，

在华盛顿大学，利维和贝克将一种人工智能设计蛋白与crispr结合起来，并表明可以通过禁用化学关闭开关来唤醒个体休眠基因，这种新方法使研究人员能够了解个体基因和细胞的作用，并开始了解是什么让细胞健康衰老或突变为癌症。

接下来让我们来调查一下该领域的几家令人兴奋的公司，entos 公司创建的 OrbNet Denali 正在解锁一类新的分子模拟，研究人员使用分子模拟作为计算显微镜，分析分子如何与蛋白质发生反应，最准确但计算成本太高的是量子力学，最有效，最不准确的是经验力场，OrbNet Denali 是一种机器学习潜力，它学习原子之间的相互作用，与量子一样准确，几乎和经验一样有效力场，

Insilico Medicine，去年底宣布了第一个人工智能发现的新药，用于进入第一阶段人体试验的新靶点，silico 有一个端到端的方法，使用深度学习进行靶点识别，以及小分子的生成模型一代，这是一个了不起的行业第一。

absci 拥有第一代完全 in silico 蛋白质药物发现平台，他们在 gtc 上宣布了令人兴奋的结果，提供了目标抗原，他们的这个版本平台使用图神经网络从头设计抗体并使用大语言改进它们的特性模型，应用于他们的蛋白质序列。

过去几年出现的最强大的深度学习架构之一是 Transformer，Transformer 神经网络是强大的 AI 架构，它使我们超越了寻找模式或从重复中学习的 AI 应用程序，进入可以从上下文中学习的 AI 和创建新信息，基于转换器的模型，以自我监督的方式训练未标记的数据集，并随着大小提高其准确性，这就是 nvidia 创建 nemo megatron 的原因，这是一个用于训练大型语言模型的加速框架，并且可以扩展到数万亿个参数nemo megatron 管理分区模型、发送数据和收集结果并使用混合精度来获得最佳性能，transformer 神经网络通常有一个两阶段范式，预训练一个具有微调任务的模型，这个范式是非常适合数字生物学，其中标记数据稀缺，无限数据是巨大的，大型预训练模型隐含封装了其训练领域的知识，可用于搜索特征和生成数据，在化学空间中的蛋白质的情况下，训练数据集远小于所有可能的组合，预训练模型可以生成分子或测序，而不是在训练它的数据库中，在临床 nlp 领域，主要挑战是数据可用性、标记数据的成本、安全性和隐私，预训练的大型语言模型可以生成真实的去识别合成训练数据。

让我分享一些我们与合作伙伴正在做的令人难以置信的工作，今天，我们宣布与阿斯利康联合开发的 Megamolbart 的下一个迭代，megamolbar 能够训练具有十亿或更多参数的大型化学语言模型，使用nvidia 的 nemo megatron 框架，它包括用于加速数据预处理和训练的脚本，实现模型并行，新版本的 Megamolbart 模型，实现超计算规模的分子生成，并达到 98% 的高有效性和唯一性。

大型语言模型是当今 AI 药物发现平台的关键推动者，今天我们宣布与四家 AI 发现初创公司开展下一代 Cambridge 1 合作——

ALCHEMAB 的抗体药物发现引擎正在确定癌症神经退行性疾病领域的新靶点和治疗方法，抗体测序的数据集异常庞大，比用于自然语言处理的 burt Transformer 语料库大 50 倍，Cambridge 1 将有助于在计算空间中扩展表示抗体序列的语言模型，以增加对抗体结构及其功能的理解。

INSTADEEP，英伟达合作伙伴网络的精英成员，为下一代疫苗和疗法的开发提供人工智能决策系统，利用来自 450 000 个物种的公开可用的 120 亿个核苷酸序列，Cambridge 1 将使用部分数据并将其公开，以便医疗保健研究人员可以从快速增长的测序数据集中获得新的见解。

Peptone 是下一代治疗公司，致力于研究缺乏结构且被认为不可成药的内在无序蛋白质 idps 蛋白质，他们的平台 Oppenheimer 运行一个超级计算机堆栈，运行 AI 和模拟，Cambridge 1 将使 Peptone 的 AI 模型开发超过数十亿个参数并预测数以百万计的蛋白质和增强平台描述发现更合理的药物靶点。

RELATION THERAPEUTKS 使用单细胞分析人类遗传学和功能基因组学与机器学习来创建与驱动疾病的因果关系图，Cambridge 1 将用于从 dna 和 rna 测序数据构建语言模型，从而开辟几乎不可能的生物学领域用于湿实验室实验，例如 dna 序列的变化如何影响人脑中的基因表达。

所以我已经和你讨论了用于生物学和化学的转换器和大型语言模型，但它们当然适用于医疗保健领域的自然语言处理应用程序，我们正在与 JANSSEN 和 JANSSEN 的制药部门开展令人兴奋的工作，以帮助确保药物的安全性在现有基础上，在业界这被称为药物警戒，nvidia 的 JANSSEN RD 团队使用了 nvidia biomegatron，一种最先进的预训练语言模型，可以理解生物医学文献的细微差别，以及 nvidia nemo 培训框架，以便于定制和精细化- 调整，使用 nvidia nemo 和 biomegatron JANSSEN 将不良药物事件检测召回率提高了 12 次，达到 88 次，同时保持精度，这导致对更多不良事件进行分类，这将有助于提高患者的幸福感并发现潜在的正面和负面副作用, JANSSEN 使用 nvidia tensorRT 和 triton 进一步优化了新模型，使模型推理性能提高了 2 倍，从而提高了 JANSSEN 及其智能自动化团队的成本和运营效率。

生物医学和临床语言模型密集且充满了特定领域的术语，这就是为什么需要特定领域的模型，临床数据具有额外的复杂性，包括临床术语、孤立的数据，并且它包含受保护的健康信息，但临床 nlp 的机会是巨大的，为了研究和改善病人护理，今天我们宣布佛罗里达大学和英伟达制造了世界上最大的临床语言模型，称为 syngatortron，它可以合成临床数据，自然去识别和模仿非结构化临床数据集，syngatortron 被用作数据工厂生成大量各种类型的合成临床报告，例如，我们提示 syngatortron 生成数百万个合成出院摘要，我们表明在合成数据上预训练临床语言模型会产生达到或超过在真实世界的去识别数据集上进行训练的模型性能。

我们第一次向社区发布 gatortron 预训练模型，在 ngc 上免费和开源，将提供两个模型，一个是基于真实世界去识别数据训练的模型，一个是原始的 gatortron og 模型和一个模型受过合成数据培训，gatotron sheterotron 模型大大降低了开发整个行业使用的临床应用程序的障碍，对于医院系统、制药保险和合同研究组织，这是对该领域的惊人贡献。

我们谈到了数字生物学革命为我们提供了诊断患者和发现药物的新工具，我们谈到了在医疗保健领域具有广泛应用的特定领域语言模型的力量，现在让我们谈谈人工智能和医疗设备的未来今天，医疗保健行业面临着令人难以置信的挑战，人口老龄化和人口增长，慢性病推动对医疗保健的需求远远超出医疗专业人员的供应，到 2030 年，美国六分之一的人将超过 60岁、10个成年人中就有6个必须管理慢性病，即使在今天，世界上只有三分之一的人口可以获得医学成像和手术治疗，现在可以通过持续的传感、计算和人工智能对医疗设备进行检测、测量、预测、模拟、适应、引导。本质上成为机器人，以增加临床护理团队，帮助满足需求，最大限度地提高效率并增加获得现代医学的机会。

nvidia clara holoscan 是面向医疗保健行业的开放式实时计算平台，提供可扩展的软件定义的流数据端到端处理所需的计算基础设施，clara holoscan 是一款支持第三方的一体化计算机，前端连接传感器并结合nvidia connectx、高速 I/O 、 GPU Direct-RDMA、nvidia Orin SOC 和 rtx a6000 独立 gpu，用于 AI 推理和高级渲染。

claro holoscan 是云原生的，支持无线更新，基于微服务引擎运行模块化、多模式微服务，允许开发人员创建低延迟流应用程序，在设备上运行，同时将更复杂的任务传递给数据中心资源。

让我们来看看用于显微镜的holoskin，诺贝尔化学奖获得者eric becksig发明的光片显微镜，使用高分辨率荧光显微镜来制作活细胞的电影，让研究人员能够研究运动中的生物学，挑战在于这些显微镜, 每小时生成 3 TB 的数据，有些实验可能需要一整天才能完成，然后需要额外的一天来处理和可视化，nvidia clara holoscan 使得在高级生物成像中实时处理和可视化显微镜数据成为可能在加州大学伯克利分校的中心，研究人员正在使用 holoscan 和 AI 来自动检测有趣的生物事件，并在实验运行时自动聚焦显微镜，claro holoscan 可以实时处理数据，因为它将数据直接从传感器拉到pci express 图像采集卡，并使用 gpu direct rdma 进行 gpu 图像处理，反卷积和纠偏，holoskin 应用程序是由微服务图组成，使用零内存副本将处理从设备计算无缝分配到数据中心资源，以确保高流性能，这里 holoskin 将显微图像流处理到运行 nvidia index 微服务的数据中心，用于交互式、大规模体积渲染。

我们正在与整个传感器生态系统合作以支持 clara holoscan，因此每台医疗仪器都可以加速其发展并成为实时传感系统，与 aja、blackmagic、deltacast 和 kaya等合作，我们的全球合作伙伴提供视频采集卡支持sdi、hdmi、dvi 输入常用于放射学和内窥镜检查和手术显示器，verisonics 和我们为我们提供超声换能器前端，可以访问原始射频数据，开发重建和图像处理算法，用于软件定义的超声和频谱通用数字化仪卡支持超声波辐射和激光传感器，nvidia clara holoscan开发套件与多模态传感器前端支持一起工作，它有一个云原生 sdk 和参考应用程序，为开发人员提供了一个良好的开端，基于Orin 的套件将于 2022 年下半年推出。

从顶级医疗设备制造商到新的机器人和数字手术平台，clara holoscan 正在被行业领导者采用。智能 X 光室使用 carestream 人工智能进行患者安置、人工智能图像处理、提升图像质量和降噪，西门子vex ct 核成像系统，自动调整 ct 剂量并执行智能缩放，主动手术提供组织灌注和血流可视化的手术指导，为外科医生提供关键的实时指导。haply robots 是下一代物理模拟培训平台，外科医生的 playstation，旨在培训 200 万外科医生进行 260 多项手术，ImFusion 平台是一种自导航超声采集机器人，可实时融合 3d 核磁共振数据和片段。

clair holoscan 的应用层出不穷。

今天我们宣布 claroholoscan mgx，一个用于实时软件定义医疗设备的医疗级平台，holoscan mgx 是一个用于嵌入式和边缘计算的可扩展参考设计，基于 nvidia orin ，提供 250 -600TOPS的AI计算性能。整合了rtx a6000 独立gpu卡和nvidia connectx 7，能提供具有高达 200 Gb 以太网，以及支持GPU Direct-ADMA的流式 I/O 以实现超低延迟处理。mgx 具有内置的安全性和可管理性，具有支持运行实时的安全微控制器时间操作系统，用于无线更新和监控的基板管理控制器，以及用于启动安全的外部信任路由。

nvidia为mgx stack提供超过10年的全栈支持，mgx stack的核心包括操作系统、驱动和支持的io设备、nvidia的ai推理加速库和参考应用，holoskin mgx是医疗级全栈平台，客户在其上构建应用程序，显着减少工程投资并为软件即服务业务模型提供架构，nvidia clara Holoscan 是人工智能开发的医疗保健行业独一无二的端到端平台到生产人工智能部署，拥有世界上最先进的人工智能开发框架，用于模型开发的 MONAI 和 nvidia flair，现在是一个完整的部署架构，带有 holoscan 开发套件和在 clara holoskin mgx 医疗级平台上的生产部署。

人工智能在医疗保健应用中的影响正在加速，数字生物学革命已经开始，测序成本和吞吐量正在产生基因组数据的海啸，全世界都在学习理解，今天，随着牛津纳米孔突破性技术的出现，对于危重患者来说，实时测序成为现实，Transformer和大型语言模型正在帮助阐明人类进化的较低生物学水平。剑桥一号正在帮助扩展 AI 蛋白质和药物发现平台，利用最近在十亿甚至万亿参数、化学和分子语言模型方面取得的突破，nvidia的MegaMolBART 提供了能够生成分子的化学语言模型的训练框架，专门为医疗保健构建的人工智能工具，如MONAI，邀请行业专家参与，并构建帮助解决问题的人工智能应用程序他们最重要的挑战，数以万计的人工智能应用程序是需要的仅在放射学领域，clara holoscan 完成了这一蓝图，为 AI 模型提供了一个发展平台，现在有了 holoskin mgx，一个医疗级 AI 计算平台，医疗器械行业可以演变为软件即服务的商业模式，给医生通过人工智能和机器人技术获得最新的创新和扩展医疗保健服务，未来是光明的！

【NVIDIA GTC2022】在自动光学检测（AOI）领域中推广Jetson Xavier 方案到底解决哪些痛点？

【NVIDIA GTC2022】如何使用Graph Composer 在NVIDIA Jetson设备上开发智能视频应用

【NVIDIA GTC2022】关于Jetson AGX Orin产品你不知道的关键点都在这里

【NVIDIA GTC2022】揭秘 Jetson 上的统一内存

【NVIDIA GTC2022】CUDA 开发工具的最新更新

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2022-04-11，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络