[Google] Baseline工程把基因大数据化

Google 在下一盘大棋。

纵观几年,谷歌苹果三星微软几家巨头在健康领域投入越来越大,势头愈加生猛。据华尔街日报报道,紧接无人驾驶汽车,隐形眼镜式血糖仪,高原气球网络服务,Google俨然开始了一项自公司成立以来最具野心,最为困难的科学项目,一个“登月”工程。Google X 实验室开始了 Baseline“基线”项目,大量收集人类基因组标本并利用大数据合成一份完美的健康人类基因图谱,为多种疾病的提早发现及治疗提供前提。

基线工程的第一步是采集175个参与者的匿名基因和分子信息,取样包括基因排序,血液,唾液,眼泪,尿液,以及参与者的食物及药物代谢信息,心率,家族病史等,第一波测量过后,参与者将佩戴可穿戴测量设备,持续提供体征信息。Google将通过第三方的隐私过滤得到匿名的基因组信息。下一步将把实验群体扩大到数千人,获得更多更广的基因数据。

项目领导者分子生物学家安德鲁·康拉德(Andrew Conrad)2013年3月加盟Google,现在已经建立起了一支70-100人的队伍,包括生理,生物化学,成像和细胞生物学的专家。康拉德认为基线工程处在刚刚起步阶段,基因图谱的制作和分析是一项极其艰难的工作,我们对于DNA,蛋白,酶类间的相互关系和外界的影响知之甚少,但随着掌握的数据量增多,依赖Google 强大的大数据计算能力,研究者们可以从海量的基因组数据中获得生物标记(biomarker)的规律,而这些生物标记将对预防,治疗,制药领域产生强大的引领和促进作用。

举例来说,每个人对于食物脂肪的代谢功能都是不一样的,部分人的基因组中缺乏帮助人体代谢多余食物脂肪的生物标记,从而导致早年的心血管疾病,通过数据收集,研究者们可以准确的定位生物标记在基因中的位置,确定新病人是否缺乏这段标记,及时做出准确的治疗和饮食推荐。大量减少心血管疾病的发生。

既然基因组的作用如此强大,在Google之前为什么没有人开始同样的收集工作呢?原因很简单,没钱没时间。人类的基因组及其庞大,一个基因组由十万以上的基因分段组成,每个基因段又由成百上千个核苷酸配对组成,放在几十年前,受集一份整套的基因组的工作量是不可想象的。2001年,第一份基因组才被排序成功,而在十年前,单单一份基因排序需要一亿美金,随着排序技术的发展,如今只需要1000美金就可以完成。但一般的公司和个人还是支付不起系统性收集基因组的。记着之前在学校学起DNA排序时,十分激动的问生物老师我们要是收集几万人的DNA后通过大数据岂不是可以把人体的秘密通通展现出来,老师淡然一笑:好想法,你有钱吗?

我没有,但是Google财大气出,魄力十足。

有人可能会好奇当今基因排序技术的准确度,老实说,不是很高,Emory大学的神经学系主任Allan Levey在讲座中劝告听众不要盲目花钱做基因排序,提到一位老友的故事:50岁后这位仁兄去做了一个基因排序以防基因病来得错手不急,结果发现他的APP基因突变了,这个基因突变理论上必然导致老年痴呆症(Alzheimer’sDisease),结果老兄丧气地找到Levey 教授寻求解释,经过一番测试后发现他已经过了开始发病年龄却一点症状没有,后来发现是基因排序出了差错。这类事件时有发生,但是终归是针对个人案例的。大数据的绝对优点就是海量数据弥补个别差错。或许基线工程的第一波实验结果会出现不准确的风险,但是几年后,当实验群扩张到千人甚至万人的时候,通过计算足以剔除DNA中的大量无用分段和错误信息,将研究者的目光直接导向致病的基因段。人类的健康基因图谱将得到越来越多的完善,接近完美。

那么关于老生常谈的隐私问题呢?Google 已经建立起当今世界上最为强大的电脑和信息网络来支撑搜索引擎和YouTube这样强劲的数据捕获手段,今年年底又要利用安卓涉足穿戴式设备领域,数据的掌控量之恐怖,自然会让我们不放心Google获得大量的基因组数据。康拉德在采访中提到Google将与斯坦福和杜克大学的医学院合作,两个大学将把基线工程参与者的身份信息抹掉,把匿名数据交给Google,听起来让人稍稍安心一些,但仔细想想,那些被抹掉的也只是参与者的信息,Google获得的却是人类身体中最为珍贵的秘密,如果Google不将这些计算后的结果公开,而单独和几家制药公司分享,我们作为普通老百姓可能一点办法没有,任由巨头们把我们的弱点和需求看个透。

Google创始人之一拉里佩奇(Larry Page) 多次提到大数据在健康和医药领域的巨大潜能,常常不忿隐私法律对于人体数据获取的制约,现在来看,Google可能在建立一个独立的庞大数据池,仅供自己所用,直接绕过隐私法获得数据,为其数据计算能力找到了新的用武之地。我们只能寄希望于斯坦福和杜克为大众把好隐私关,制约Google的数据用法和走向。

Google在让我们更清晰的了解自己身体秘密的同时,是否正在将我们趋向一个没有隐私的时代,我们不得而知,只能猜想和等待。

摘自:虎嗅

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-07-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏带你撸出一手好代码

不该存在的语言之争

G20在杭举行,各国首脑人物纷纷抵达。在二十国集团的领导人中,除我天朝首领习大大以外,最引人注目的莫过于美国总统奥巴马了。对于奥巴马的狗仔传闻,在峰会开幕前几天...

321110
来自专栏新智元

【变形金刚成真】MIT机器人“变身术”:外骨骼让机器人七十二变

【新智元导读】MIT计算机科学与人工智能实验室正在研发一种新型的变形机器人,不久的将来,“变形金刚”可能就会成为现实。据了解,这一机器人通过穿戴不同的外骨骼来执...

34140
来自专栏华章科技

能救命!你不是药神,但你就是你自己的数据之神!

导读:《我不是药神》上映一周,总观影人次累计超过4890万,猫眼实时统计票房达到17.47亿。(数据截至7月11日上午11点)影片之所以感人,很大一部分原因是患...

9550
来自专栏编程微刊

面试经历|为即将找工作的你保驾护航

10910
来自专栏华章科技

林彪用数据挖掘活捉廖耀湘 ——从数据化谈“互联网+”

据《往事回眸》记载:1948年辽沈战役开始之后,在东北野战军前线指挥所里面,每天深夜都要进行例常的“每日军情汇报”:由值班参谋读出下属各个纵队、师、团用电台报告...

19410
来自专栏新智元

Google挖到神经科学界的大牛,意味着什么?

思恩点评 打开WIKIPEDIA输入Thomas R. Insel,已经能在第一段末尾看到这位神经科学界大牛加入Google X的讯息。这是一个强信号,继去年G...

50990
来自专栏机器人网

重温《机械姬》看机器人美学

电影《机械姬》讲诉的是一个自认为水平很高的程序员(男主),在全球最大的搜索引擎公司(这个不是谷歌吧)工作,突然有一天,他赢得公司的幸运大奖,可以和老板共度周末,...

28850
来自专栏极客生活

《如何有效阅读一本书》读书笔记

其实这里有一个取舍,针对同样的内容到底是手抄还是电子标签存档,尤其是现在碎片化时间越来越多,30分钟手抄记下1/3内容,电子版记下1/10内容,但是电子版的时间...

9520
来自专栏机器人网

核用应急机器人“爸爸”冯常的故事:可靠性要达到100%,让孩子测试机器人

在中科院成都光电技术研究所,住着一群不怕强辐射的机器人,它们的“爸爸”是该研究所高级工程师冯常。 高悬的机械手臂、圆圆的摄像镜头,大的状如一辆坦克有100多公...

34060
来自专栏钱塘大数据

清华校长演讲:在未来面前,我们都无知的像孩子

本文是清华大学副校长、清华大学生命科学学院院长,中国科学院院士施一公教授曾发表的,名为《生命科学认知的极限》的演讲。

11830

扫码关注云+社区

领取腾讯云代金券