首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Science:如此多的人接受DNA测序会危及其他人的隐私

本文系生物谷原创编译,欢迎分享,转载须授权!

每个人的DNA序列都是独一无二的。但对那些希望保留自己基因隐私的人来说,这可能还不够独特。

在一项新的研究中,来自以色列和美国的研究人员认为如果从一开始所有接受DNA测序的美国人提供他们的DNA样品和一些基本事实,比如他们居住在哪里和他们的年龄是多大,那么一半以上的美国人可通过他们的名字加以识别出。相关研究结果于2018年10月11日在线发表在Science期刊上,论文标题为“Identity inference of genomic data using long-range familial searches”。

这并不简单,也不便宜。专家们说,这已变得可行的事实将迫使我们所有人重新思考DNA时代的隐私意义。

几乎没有时间浪费。这些研究人员表示,一旦300万美国人将他们的基因组上传到公共的家谱网站,几乎每个美国人都可以仅通过他们的DNA和一些额外的线索加以识别出。已有100多万美国人已发布了他们的遗传信息,而且每天还有数十个美国人这样做。

美国加州大学戴维斯分校法医科学项目主任Ruth Dickover(未参与这项新的研究)说:“人们一直想知道利用DNA检测任何一个人需要多长的时间。这些作者如今说,时间不会太长。”

这个新的现实代表了两种长期趋势汇合在一起。其中的一个趋势是直接面向消费者(direct-to-consumer, DTC)的基因测试的兴起。Ancestry.com和23andMe等公司能够以大约100美元的价格对任何人的DNA进行测序。你所要做的就是提供唾液样本并通过邮件进行邮寄。另一个重要的趋势是诸如GEDmatch之类的可公开搜索的家谱数据库大量出现。任何人都能够将完整的基因组上传到这些网站,强大的计算机将进行处理,寻找一系列匹配的DNA序列用于构建家谱。

为了测试这些网站不断增长的力量,在美国哥伦比亚大学计算机科学家Yaniv Erlich的领导下,这些研究人员着手研究如果他们能够找到一个人的DNA片段及其少量的传记信息,那么他们是否找到这个人的名字(因而找到他的身份)。他们从一名女性的完整DNA序列开始,作为一项不相关的科学研究的一部分,这名女性的遗传信息是匿名发布的。(他们在之前的一项研究中确实识别出这个女人,但是为了开展这项新的研究,他们假装不知道她是谁。)Erlich和他的合作者将她的遗传密码上传到GEDmatch上并进行了搜索,看看她是否在这个家谱数据库网站上存在亲属关系。他们找到了两个亲属:一个在北达科他州,一个在怀俄明州。

这些研究人员能够确定他们存在亲属关系,这是因为他们都存在着许多相同的单核苷酸多态性(SNP)。在由大约30亿个碱基(即A、C、T和G)对组成的人类基因组中,SNP是特定位点中的单个碱基。人们拥有相同的SNP越多,他们在血缘上就更加密切。

通过比较这三个人(这名女性以及她的两名亲属)的DNA,Erlich团队能够找到这三个人的一个共同的祖先夫妇,即这名犹他州女性的曾祖父母。接下来,这些研究人员在家谱网站和其他的来源中搜索了这个祖先夫妇的其他后代。他们发现了这个祖先夫妇的10个孩子,以及数百个孙子女和曾孙。

他们随后开始筛选这个庞大的后代名单。他们首先剔除了所有的男性,然后剔除了那些在这名犹他州女人的DNA被测序时没有活下来的人。他们还知道这名女性是已婚的和她有多少孩子,这有助于他们确定他们的目标。经过漫长的一天辛苦工作,他们能够正确地确定这名提供DNA样本的女性的名字。

Erlich说,这些作者指出这个同样的过程适用于大约60%的欧洲裔美国人,这是因为他们是最有可能使用家谱网站的人。他们说,尽管来自其他背景的人的成功几率会低一些,但是它仍有望适用于一半以上的美国人。

为了得出这个结论,这些研究人员分析了一个不同的数据库,该数据库由128万名匿名的人组成,这些人的DNA由MyHeritage测序。MyHeritage是一家DNA测试和家族史公司,Erlich是这家公司的首席科学官。

Erlich说,如果你能够在一个家谱数据库中找到一个人的第三代堂表兄妹(third cousin),那么你应该能够通过合理数量的侦查识别出这个人。因此,Erlich团队核对了他们的数据集以便观察他们能够发现每个人的第三代堂表兄妹或更近亲属的数量。他们发现在这128万人中有60%的人存在亲缘上至少为第三代堂表兄妹的亲属,有15%的人存在亲缘上至少为第二代堂表兄妹的亲属。

迄今为止,72岁的Joseph James DeAngelo是通过这种方式识别出的最有名的人。你可能更了解作为有嫌疑的金州杀手,他被指控13项谋杀罪和13项未遂绑架罪。当执法官员在4月份使用可公开访问的DNA数据库来捕获DeAngelo时,这只是在犯罪解决历史上这个策略的第二次成功实施。从那时起,至少又有13名涉嫌犯罪分子以同样的方式被查出。

Dickover说,“金州杀人案的侦破使得这种方法成为可能,而且其他的犯罪实验室正在利用它。显然,这个趋势已开始了。”

普通人也从这种技术中受益。被收养者可通过这种技术找到他们的亲生父母和兄弟姐妹,其他人可通过这种技术找到远房堂表兄弟,这有助了解家族的起源和传统。

但随着我们越来越多的人将DNA上传到可公开搜索的数据库中,由此产生的影响可能令人毛骨悚然。Erlich说,“当警察抓住这名金州杀手时,这对人类来说是一个非常美好的一天。 问题是同样的策略可能会被误用。”他说,想想利用这种技术追踪美国公民的政府。或者以这种方式追捕抗议者和活动分子。

Erlich和他的合作者们提出了一种防御对策,这种策略使得将未知的DNA序列上传到家谱数据库中并从中搜索匹配的序列变得更加困难。他们建议直接面向消费者的DNA测试公司在发送给客户的原始数据文件上添加一种特殊代码。随后,家谱网站同意允许人们仅在具有有效代码的情况下上传DNA序列。这将确保人们能够开展仅与他们自己的DNA相关的搜索。

Erlich说,像这样的一种系统不会阻止执法部门使用家谱数据库来搜索嫌犯。他说,最终目标是让人们在不牺牲隐私的情况下使用他们的DNA来了解更多关于他们自己的家族的信息。

参考资料:

Yaniv Erlich1,2,3,4,*, Tal Shor1, Itsik Pe’er et al. Identity inference of genomic data using long-range familial searches. Science, Published Online: 11 October 2018, doi:10.1126/science.aau4832.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181023A1VTWX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券