前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别

【NIPS挑战赛优胜解】用机器学习判断基因变异所属类别

作者头像
新智元
发布2018-03-21 15:56:52
7840
发布2018-03-21 15:56:52
举报
文章被收录于专栏:新智元
【新智元导读】在刚刚结束的 NIPS Challenge on Predicting the Genetic Variants to Enable Precision Medicine (organized by MSKCC)中,康奈尔大学威尔医学院助理教授王飞所带领的实验室在1300多个参赛队伍中脱颖而出,获得前三的成绩。王飞教授特为新智元撰写此文,介绍研究成果。

2017年11月8日,国家会议中心,王飞教授将在AI WORLD 2017世界人工智能大会AI Industry论坛进行以《人工智能与智慧医疗》为题的主题演讲。

一年一度的神经信息处理大会(NIPS)将于今年12月在加州长滩召开。由于近些年来机器学习以及人工智能的兴起,NIPS更是成为了一年一度相关方向学者不容错过的盛会。今年的NIPS更是门票早早便已售罄,连赞助商的席位也都已经soldout。

NIPS Competition是今年新增的环节,旨在吸引众多的机器学习爱好者来用他们所知道的方法来解决实际问题。由于我本人从事医疗健康方面的研究,就鼓励我实验室的人员参加其中的基因变异分类(Classifying Clinically Actionable Genetic Mutations)挑战。经过调研,大家也都感兴趣,所以一拍即合,一做就是四个月。

该挑战是由著名的Memorial Sloan Kattering Cancer Center (MSKCC)组织。众所周知在强调精准医疗的今天,理解不同的基因变异是一个核心问题。这个挑战就是根据基因的名字以及其出现的变异来预测该基因变异所属的类别,在竞赛中一共有9类,但并没有对这9类有明确的描述。也就是说,我们只有类别代号,没有类别信息。除此之外,对于每一个基因和对应的变异,还有一篇相应的学术文章,正是该学术文章提到了这个特定的基因变异对。

因此这个挑战实际上是一个9个类别的多分类问题,可以用到的信息有基因名字,变异描述以及提到的文章。在实际当中,对基因变异的分类由分子病理(MolecularPathologist)学家完成,这通常需要长时间的专业训练。即便如此,他们也经常会有不同的意见,从而有分类不一致的现象,因此这是一个非常困难的问题。挑战的组织者将竞赛设成两个阶段,第一阶段有大约三个月,而第二阶段只有一周。第一阶段与第二阶段的测试数据完全不一致。竞赛的组织者为了获得第二阶段的数据,重新组织了专家进行标注,而且这些专家与第一阶段的略有不同。并且第二阶段有新的变异出现,这些变异从未在第一阶段的数据中出现过。这是一个费时费力的过程,两个月之内只能得到150个新的标注。

显然该挑战涉及自然语言处理和机器学习,但又有些独特的挑战。比如竞赛数据中包含的文章通常都很长,是整片的学术文章,而其中只有很小一部分提到基因和变异。这就使得训练数据中有大量的噪声。不仅如此,基因和变异还有有别名,我们试图在文章中匹配基因和变异时经常匹配不上。还有就是一篇文章中经常会多次提到不同的基因和不同的变异,这给预测带来了更多的难度。

为了解决这一问题,我们提出了如下图所示的框架。输入包括基因以及变异本身的名字以及相应的文章。我们从中提取三个级别的特征,第一是它们的名字本身,第二是提到它们的整篇文章,第三是从整篇文章中提取的包含提到基因和变异的句子。这些特征中既包括了相对直接的特征,例如文本长度以及某些关键词的词频,又包括间接特征,例如通过LatentDirichlet Allocation (LDA)以及非负矩阵分解(NMF)降维得到的特征,以及通过词嵌入(word2vec)和文本嵌入(Doc2Vec)得到的特征。我们花费了非常大的功夫在特征工程上,测试了各种深度学习和非深度学习的方法,最终确定了20类特征(如表格中所示)。随后这些特征通过不同的组合输入到分类器当中,我们也测试了很多种分类器,最终根据效果选定了GradientBoosting Decision Tree (GDBT)。不同分类器的预测结果又被集成(Ensemble)起来,从而得到最终的预测。在特征工程的过程中,为了解决别名的问题,我们还利用了额外的数据,包括PubMed上相关文章的题目和摘要,以及一些额外的基因和变异的名称库。我们后面会写一篇学术文章详细介绍各个环节。

该竞赛吸引了全球超过1300个队伍参赛,最终我们的方法被选为最顶尖的解决方案之一,并获邀在NIPS的Competition Workshop上进行报告。我们会通过这个竞赛建立与MSKCC的合作,从而继续完善我们的方法并希望能最终应用在临床医学当中,为医学研究作出贡献。

AI World 2017 世界人工智能大会(11月8日,北京国家会议中心)上,我们邀请到了本文作者、康奈尔大学威尔医学院助理教授王飞,为我们现场解读人工智能技术在医疗应用中的常见误区及挑战,并展望发展趋势。

王飞 康奈尔大学威尔医学院助理教授

王飞,博士,康奈尔大学威尔医学院助理教授,IBM沃森研究中心顾问,法国液空集团研究顾问。曾任职于康涅狄格大学以及IBM沃森研究中心。他于2008年在清华大学自动化系获得博士学位,其博士学位论文“图上的半监督学习算法研究”获得了2011年全国优秀博士论文奖。主要研究方向包括数据挖掘,机器学习技术在医疗信息学中的应用。王飞博士已经在相关方向的顶级国际会议和杂志上发表了近190篇学术论文,引用超过5000次,H指数39。

演讲题目:人工智能与智慧医疗

摘要:人工智能正在改变着这个世界。医疗健康,作为每个人生活中不可分割的一部分,也正在被人工智能改变着。全球的IT巨头,例如谷歌、微软、IBM,以及国内的IT巨头BAT,都在试图用先进的人工智能技术来提高医疗质量,让每个人变得更加健康。本报告将对目前人工智能技术在医疗中应用的现状做以小结,指出这一领域的常见误区及挑战,进而展望未来的发展方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-11-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档