江铖:乳腺癌识别By AI

演讲嘉宾:江铖,腾讯觅影高级研究员。多年以来一直从事计算机视觉相关的研究。加入腾讯以后,负责腾讯觅影乳腺癌AI方向的研发,参与研发的项目在多家大型三甲医院落地。

0_01.jpg

大家好,今天很高兴能给大家带来这方面的报告。正如大家所看到的,社会平均年龄在逐年增长,大家对健康的意识也是越来越高,与此同时伴随着AI技术的发展,AI医疗方向就成为了互联网领域的一大研究热点,腾讯在这方面也是做了很大的努力,在这周四广州举办的互联网+会议上我们正式对外发布了我们的AI乳腺系统。作为该系统的研发人员之一我有幸见证了这个项目从无到有以及一次一次迭代的过程,所以希望在今天的会场上能够跟大家分享一下我们整个团队的经验。

0_03.jpg

选择乳腺癌这个研究方向作为我们工作的开始主要是有两方面的原因。第一方面是对于女性来说乳腺癌是所有肿瘤当中发病率最高的一种,它的发病率大概在16%-17%之间,严重危害女性的健康。第二点是因为乳腺癌它虽然发病率很高,但是它的治愈率是比较高的,如果能在较早期发现的话它的治愈可能性是非常高的。对于美国来说目前五年的生存率是在89%,而中国在这方面只有83%。原因主要是中国人口基数过多,相对来说有经验的看片医生较为缺乏,这就产生一个供需的矛盾。目前应用AI技术就是为了缓解这个矛盾,能够最大限度地帮助到患者跟医生。

0_04.jpg

对于乳腺的诊断先来做一些基础知识的了解。对乳腺来说诊断方式通常有以下五种,前四种是大部分医院采用的方式,首先对于一个来体检或者是觉得有异常的人,通常会对他先进行一个X光拍照,拍照之后对他进行一个诊断。影像科的医生读片之后作出判断,如果发现有不能确定的地方他们会建议进一步做超声和磁共振。如果这两个做下来依然有可疑的情况,可能就会建议做病理。病理能确认一个患者是否真的患有乳腺癌。在作出定性判断之后如果真的有,再判定恶性的程度是多高,给出一个打分。

然后在这个基础上还会对恶性肿瘤的亚型进行分类,对不同的亚型可以采用不同的治疗方案。近些年基因方面的研究也是比较热的,众所周知如果家族当中有人患有乳腺癌的话,其家族成员患上乳腺癌的概率相对其他人来说就会高一些,目前已经有研究证明有一种叫做BRCA的基因,携带这样基因的女性患乳腺癌的概率要远远高于平常人。所以通过这个基因可以帮助我们确定高发人群,并且能够有助于我们制订个性化的治疗方案。

从上面可以看到对乳腺癌的诊断是有非常多的模态的,我们的终极目标是能够把这些模态有机地结合起来,形成一个完整的整体,提高对乳腺癌的诊疗技术。我们最早开始的研究方向是钼靶,因为钼靶它是使用最为广泛,并且最为有效的一种方式。,我们现在对于钼靶的研究成果已经落地了三十多家三甲医院,并且已经初步得到了一些应用,也获得了一些反馈。在病理和磁共振方面我们也取得了阶段性的成果,而在超声方向我们目前是刚刚开始。

0_06.jpg

下面就以我们做得相对完整的一个钼靶项目来开始今天的技术分享。这个乳腺钼靶主要实现了三方面的功能,第一方面实现了疑似病灶的定位,能够在给定的钼靶图上将两大潜在的恶性灶准确的标定出来。这样可以辅助医生从而减轻医生读片的压力,另一方面可以降低医生的漏诊率。第二是判断病灶恶性的概率,并在此基础上对整个单侧乳房都做出进一步的判定。最后就是前面提到的这些分析的基础上结合一些图像处理的方式提取乳腺的特征,并生成它的影像报告。

0_07.jpg

我们来看一下这三方面的功能是怎么实现的呢?我们主要采用了下面这样一种技术框架,这个框架主要包含三层内容,在这个框架的前端主要是提供了对于钼靶影像的前处理层。中间的核心模块是我们的AI学习模型,第三层在是这两个模型的基础上通过医生的反馈,对前两层进行动态更新。下面我将每一个部分跟大家具体的讲一讲。

0_08.jpg

首先在前处理模块,目前主要通过归一化、迁移学习方面的方法来实现对于不同X光厂商设备适配的这个过程。在进行了设备适配后,我们会对其进ROI提取。在前端处理之后就到了核心部分:学习模型由于乳腺钼靶的特殊性,我们没有办法直接用目前市面上已经有的神经网络来解决这个问题。于是我们就单独设计了这个模型。它有四大优点,第一个优点就是相对于传统的网络的单图输入,TMuNet模型采取了四图( MLO-CC位)输入,左乳有两张,右乳有两张,因为X光拍摄的角度有CC位和MLO位两种方式。CC位是水平方式的拍摄,MLO的话是一个侧斜位的拍摄方式。通过左右乳进行对比,可以极大提升诊断的精准度。尽可能地解决同影异病和同病异影的问题。

0_09.jpg

第二点我们采用了一种多尺度网络,通常在自然图像处理中图片在输入网络之前,会对其进行缩放,缩放之后再输入固定的网络。由于医学影像中的病灶对于同一个形态不同的尺寸,可能意味着良恶性的不同,如果单纯的做缩放有可能做出不一致的判断,所以采取了通过网络结构的设计来适配图片的方式。

0_10.jpg

第三点就是渐进式的网络构建,这种方式有点相似于我们大脑进行学习的过程,对于一个复杂的问题,它不是一次性解决的,它是把问题分解成若干个相对简单的问题然后一层一层去解答。

这个网络也是基于这样的思想,首先我们会使用一个浅层网络对局部的病灶,比如说肿块、钙化进行病灶的分类。在此基础上逐步加深网络层次,实现对单幅图片的一个诊断,然后我们再进一步的对网络进行加深,从而实现四张图片诊断的功能。所以说我们的训练是一层一层的,我们的网络也是逐渐加深的过程。

第四点是自步学习的训练方式。人脑它在学习新的知识的时候通常是由易到难的,所以在样本训练的过程中,并不是一次性把所有的样本都投入网络进行训练。我们将这些样本按从易到难顺序分成了多个类别,然后我们在训练的过程当中也按由易到难的顺序逐步地把样本加进去,对模型进行训练。实验表明通过这样的过程,模型可以达到一个最好的效果。

0_11.jpg

在采用前面四种这种方式得到了这样一个基础模型之后,我们还会根据医生的反馈以及一些新接入医院新的数据对我们的模型进行迁移学习,并做动态更新。在工程实践的过程当中我们总结发现AI见过的疑难病例的数量和种类很大程度上决定了这个AI系统的上限。因此我们非常注重我们这个数据集的运营。我们数据集会定期的从数据库和线上数据当中挖掘有价值的疑难病例,对其进行标注。同时对于这其中的一部分我们会请专家三甲医院特别知名的专家让他们来跟我们进行讨论,利用病理或者其他数据进行交叉确认。将这些数据加入到我们训练样本之后我们的模型就可以远远的超过那些没有这些数据的网络。

然后最终我们的这个模型达到了下面的精度,肿块探测方面可以在0.2误检率的情况下达到92%的敏感度。钙化检测精度更高,对于良恶性分类可以达到87%的敏感度和96%的特异度。

除了这些内容之外我们在病理和磁共振方向也开展了研究,目前已经取得了一些阶段性的成果。在超声方向我们也是投入了人力的,目前我们对超声还处在数据的准备过程当中。当然就像开始所提到的我们的终极目标是把这几种多模态的数据有机地结合起来,为患者跟医生提供我们力所能及的帮助。这就是我今天的报告,谢谢大家!

Q&A

Q:我想问一下四张图是怎么放到网络里的?还有一个问题就是MLO位和CC位是否对同一个病灶做了匹配?

A:我们是做了的。然后放进去的话主要是通过网络的增广来解决的,这方面里面具体的细节的话现在还不太方便透露。

Q:还有一个问题就是钙化点的标记和肿块的标记是分开标记的还是?

A:这个是需要分开的,因为他们的特征是不一样的。根据我们的经验来说对于钙化分类的话,它是比肿块更容易的。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

R 语言数据分析师养成计划——从零开始的 14 个任务

作者 CDA数据分析师 1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语...

32770
来自专栏新智元

IBM谢国彤:认知医疗四大焦点,医药信息学顶会MedInfo2017最佳论文解读

【新智元导读】在刚刚结束的 MedInfo 2017 上,IBM 中国研究院共发表了 8 篇论文。 IBM 中国研究院认知医疗研究总监谢国彤向新智元介绍了研究院...

39060
来自专栏PPV课数据科学社区

2017人工智能与机器学习年终盘点(重要工具资源汇总)

2017年是人工智能技术全面开火、勇猛精进的一年,也是对未来全球科技和经济影响深远的一年。 无论人工智能圈子内外的从业者,都开始正视这个可能会很快改变所有人命...

44090
来自专栏京东技术

「仓储网络智能库存管理问题」最好的答案 | GOC大赛

本篇特约全球运筹优化挑战赛-仓储物流智能库存管理赛题冠军 TP_AI队伍分享赛题解析。来自清华大学经管学院的闵旭和来自北京大学人工智能创新中心的马思源因为比赛走...

42120
来自专栏新智元

精品 | 2016三大深度学习峰会:顶级科学家360度剖析技术重点、应用关键及投资机会

【新智元导读】Re-Work上放出了本年度波士顿、伦敦、柏林的三大深度学习峰会的全部演讲视频,156位行业精英带来精彩演讲,其中包括 Yoshua Bengio...

439190
来自专栏PPV课数据科学社区

不加班,上班可以打游戏,年薪20万起,什么职位这么牛逼...

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”——全球知名咨...

33460
来自专栏机器之心

CCL 2017最佳论文公布,看全国计算语言学前沿研究

机器之心报道 作者:邱陆陆 10 月 14 日、15 日,由中国中文信息学会(CIPS)举办的第十六届全国计算语言学会议(CCL 2017)暨第五届自然标注大...

37380
来自专栏机器之心

学界 | ICML 2017公布接受论文,Andrej Karpathy解读论文分布数据

选自Medium 机器之心编译 作者:Andrej Karpathy 参与:吴攀、李亚洲 当地时间 8 月 6 日到 11 日,第 34 届国际机器学习大会(I...

36670
来自专栏AI科技大本营的专栏

热门 | Google Brain前员工深度盘点2017人工智能和深度学习各大动态

翻译 | AI科技大本营 参与 | shawn 编辑 | Donna 2017年是人工智能井喷的一年。Google Brain团队前成员Denny Britz在...

31360
来自专栏BestSDK

IBM识别癌变细胞技术取得重大突破,用深度学习与神经网络重塑病理学

医生在诊断癌变细胞时,主要通过用活组织切片检查法分析病人组织样本的方式。然而即使这些组织有时如针头般微小,病理学家需要从中检测出肿瘤细胞消失的种种迹象,也要观测...

34450

扫码关注云+社区

领取腾讯云代金券