用AI来表达人类基因组

然第一个人类基因组花费了数十亿美元和大量的时间,但现在越来越有可能将您的DNA序列化到约1000美元。尽管可用的数据量猛增,但我们从中获得见解的能力却有所落后。这意味着当基因组首次测序时,我们所希望的遗传革命未能实现。

Google正在通过一种称为DeepVariant的新工具来迎头赶上,这个工具利用AI来试图更好地了解我们的基因组。该系统的目标是在测序数据中自主突变,特别是将其与随机错误区分开来。这是一个绊倒科学家的任务,但机器学习是理想的。

这是越来越多的工具的一部分,用于理解遗传数据,VarDict和GATK是该领域的领先工具。但是,说DeepVariant是最复杂的,也许是公平的。

这个项目已经从Google Brain和Verily的计划中分离出来,并且都使用AI来理解快速扩展的医疗数据。它从基因组瓶(GIAB)项目中收获了基因组序列,并用它来训练他们的AI算法,直到它能够高度精确地解释数据为止。

大数据

这是Google今年的项目。今年早些时候,他们的Verily arm发起了一个新的合资企业,以前所未有的方式将大数据分析应用于医疗保健领域。

这项名为“基线项目”的项目旨在招募1万人参加一项多年的研究,寻找心脏病和癌症的预测指标。参与者将通过学习手表进行广泛的监测和测试,以实时记录他们的活动水平。除了手表的读数之外,参与者还将接受X光和心脏扫描,并在4年内定期对其基因组进行测绘并进行血液测试。

这个团队说:“没有人对这么多的人做过这样的深度潜水,这个深度从未被尝试过。“这是为了让后代来挖掘它,提出问题,而不预先假设问题是什么。”

我已经写了很多关于数据在医疗保健研究中日益增长的作用,而Google正在开发基础设施来利用和支持这一点。这项研究将尝试尽可能多地获取信息,参与者可能会花费1亿美元以上的项目志愿服用大便,唾液,甚至泪液样本。

基因组洞察

然而,他们并不是唯一使用这种方法来试图让我们更好地理解遗传数据的人。去年,加州大学圣地亚哥分校发布了一个新的搜索引擎,旨在使我们更容易搜索我们的基因组数据记录。

搜索引擎GeNemo已经在最近发表的论文中被记录,目的是使搜索功能基因组数据更容易。

功能基因组学数据是有价值的,因为它有助于记录每一片基因组的活动范围。新的搜索引擎希望能够帮助研究人员揭开我们认为对疾病负责的基因组某些部分的各种功能方面。

搜索引擎允许用户查询一系列数据库,包括整个ENCODE数据集。搜索算法利用模式匹配比传统的基于文本的搜索提供更丰富的结果。

瑞士创业公司Sophia Genetics可以说是这个领域的市场领导者。他们声称拥有世界上最大的临床基因组学社区,拥有一个以人工智能为动力的平台,帮助理解所收集的基因数据。

该公司最近在Balderton Capital的领导下筹集了3000万美元的资金,在53个国家的334家医院中部署了他们的平台。迄今为止,他们已经设法分析来自世界各地的超过125,000名患者。

隐私问题

Sophia方法的一个吸引人的方面是他们只处理医院自己收集的匿名数据。Verily并没有对他们的Baseline Project做些什么,数据的拥有权直接与Google自己保持一致。

阿尔伯塔大学一对健康法律研究人员最近在“ PLOS生物学”上发表的一篇文章认为,整个行业目前缺乏基本的法律和道德原则,目前只有在获得更多的基因组数据的情况下才会加剧。

通过英国生物银行等项目,研究人员可以开展与数十万参与者的项目。然而,围绕这些样本的所有权问题以及参与者对其使用的同意仍然存在。作者认为,我们需要在这个领域真正的政策运动来解决这些问题,特别是在这个行业越来越多的情况下。

“国际研究界已经在一个有可能崩溃的基础上建立了一个庞大而多样的研究基础设施,这个基础可能会被更多的人明确地认识到目前的实践与现实法律,研究伦理和公众认知。“他们说。

在Sally Davies教授最近发表的关于英格兰NHS基因组服务提供现状的文章中,这个话题引起了很大的关注。

该报告审查了基因组学显着改善国家健康的潜力。它提供了在筛查,疾病诊断和个性化预防服务等方面潜力的明确证据。

本文继续强调基础设施,公众参与,研究组织和提供服务等领域存在的严重不足之处,然后就如何解决这些差距以及如何扩大基因组服务提供明确的建议。

很明显,这是一个正在经历一些相当迅速变化的领域,因此在未来几年将是一个值得关注的领域。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180119B0A0X800?refer=cp_1026

相关快讯

扫码关注云+社区