专栏首页新智元【精度平均最高80%】机器学习+全基因组测序,准确预测人体特征

【精度平均最高80%】机器学习+全基因组测序,准确预测人体特征

【新智元导读】人类长寿公司的研究人员最近在PNAS发表了一篇论文,利用全基因组测序数据,使用机器学习方法,预测个体的性状。结果表明,研究人员能够比较准确地预测出一些简单的个体性状特征,尤其是眼睛颜色、肤色和性别。论文第一作者表示,机器学习在科学发现中起着至关重要的作用,能够让数据解释工作完全自动化完成。

科学家可以根据我们的DNA有效地预测我们身体的物理特征,也就是性状。

人类长寿公司的研究人员最近在PNAS发表了一篇论文,利用全基因组测序数据,使用机器学习方法,预测单个人的性状。论文第一作者Christoph Lippert表示,机器学习在科学发现中起着至关重要的作用,能够让数据解释工作完全自动化完成。

人类长寿公司(Human Longevity Inc)由美国基因组学家克雷格·文特(Craig Venter)与干细胞先驱罗伯特·哈里里和XPRIZE基金会创始人彼得·迪曼蒂斯组建,该公司试图利用基因组和干细胞疗法,寻找相应的治疗药物,最终实现延缓衰老,保持健康和身体机能的目标。

整个研究的目的旨在表明法医学如何能够在工作中利用新的技术。具体到这项研究,研究人员从1,061名18~82岁、不同种族的被试中抽取基因组测序样本信息。研究人员还采集了3D面部图像、语音样本、身高、体重等数据。

结果表明,使用机器学习方法,在全基因组数据的基础上,研究人员能够比较准确地预测出一些简单的个体性状特征。尤其是眼睛颜色、肤色和性别,预测结果的准确度非常高。但是,一些复杂的性状,预测精度还有待提高。

研究人员开发了一种名为最大熵的机器学习算法,并表示如果有更多的数据,模型能够得出更好的预测结果(也即将全基因组测序数据与表型和人口统计数据相匹配)。

实验中,机器学习算法发现了所有预测模型的组合。大约有8分之一的参与者被成功识别(reidentificated)。另一方面,非洲裔美国人和欧洲参与者的成功率“只有”50%。这不是研究人员希望的结果。

左边是实际照片,右边是算法预测的面部特征。来源:论文

作者认为,虽然这项研究为法医学提供了新的方法,但也对数据隐私、识别(deidentification)和充分知情同意具有严重的影响。研究人员表示,越来越多的基因组被生成并被放置在公共数据库中,这需要更多的公众审议。(这项研究本身已经获得了IRB批准)。

人类长寿公司的联合创始人克雷格·文特指出:“我们着手做这项研究,是为了证明你的基因组代码造就了你的一切。这显然是一个在数据有限的情况下进行的一次概念证明。但是我们相信,随着我们将本研究中的人数和HLI数据库中的人数增加到几十万,我们将能够准确地预测个体基因组可以预测的一切。”

他补充说:“我们也担心公众和整个研究界不能充分重视基因组学时代对个人隐私的更好的保障和政策的需要,并且正在敦促更多的分析,更好的技术解决方案和持续的讨论。”

成像技术与机器学习相结合确实可以产生一些意想不到的结果。在未来几年看到更多的这些发展还有待观察。

  • 相关论文

摘要

使用基因数据预测人体物理特征和人口信息,对个性化医疗中的隐私和数据识别构成了挑战。为了探索目前基于表型的基因组的鉴定能力,我们应用全基因组测序、详细表型分析和统计建模,预测了不同祖先的1,061名参与者的生物特征。单独看,对于大部分性状而言,使用基因测序预测精度超越以往方法是有限的。然而,我们开发了一个最大熵算法,集成了多个预测,能够确定哪些基因组样本和表型测量来源于同一个人。使用这个算法,我们在一个由多种族混合的实验群体中,平均估计出每10名被推举者中的8名,在每10名非裔美国人或每10名欧洲人中平均估计出5名。这项工作挑战了当前的个人隐私概念,并可能产生深远的伦理和法律影响。

论文公开发表,了解更多可访问:

http://www.pnas.org/content/early/2017/08/29/1711125114.full

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌开源DeepVariant,之前的经典检测基因变异法将被颠覆

    来源:research.googleblog.com 编译:马文 【新智元导读】今天,谷歌开源了DeepVariant深度学习模型,这是将基因组中的识别变异(v...

    新智元
  • 比特大陆转身AI,“矿霸”吴忌寒:作为一家中国公司,我们必须做好准备

    新智元
  • 比特大陆再发AI终端芯片!全面杀入安防领域

    10月17日,在北京举行的媒体沟通会上,比特大陆正式发布了终端人工智能芯片BM1880。此次一同发布的还有基于云端人工智能芯片BM1682 的算丰智能服务器SA...

    新智元
  • 区块链+基因检测可行?不暴露个人信息就能测序基因组!

    当生物学研究人员晚上入睡时,他们通常会梦到基因组。你的、我的、以及我们之间“六度分离理论”所涉及的所有人(六度分离理论指“你和任何一个陌生人之间所间隔的人不会...

    区块链大本营
  • 利用 Python 分析 MovieLens 1M 数据集

    MovieLens数据集是一个关于电影评分的数据集,里面包含了从IMDB, The Movie DataBase上面得到的用户对电影的评分信息,详细请看下面的介...

    JavaEdge
  • CentOS7压力测试MGR

    最近在规划CentOS7版本中的MySQL测试情况,于是找了公司内部的虚拟机来做下模拟测试。

    jeanron100
  • 人类微生物组计划 - 宏基因组/16S分析流程 bioBakery

    bioBakery是NIH人类微生物组计划实施过程中开发的部分软件和使用教程的集合,主要由哈佛大学的Huttenhower实验室开发。提供了16S, 宏基因组,...

    生信宝典
  • 为什么你的代码看起来像“野路子”出来的?

    这段时间看0827零基础班同学们的作业,html、css、js的基本的语法、用法已经都能掌握。现在阶段主要的问题是,

    web前端教室
  • MySQL单机多实例的配置笔记

        CentOS6.7x86_64【2.6.32-573.el6.x86_64】

    二狗不要跑
  • docker搭建MediaWiki

    MediaWiki 是 Wikipedia 使用的网站解决方案的开源版,以个人观点来看,Wiki 在这个时代显得不够时尚,且不支持 MarkDown 等新兴的标...

    py3study

扫码关注云+社区

领取腾讯云代金券