一篇质疑IBM的旧文最近在Hacker News上火了起来,虽已时隔两年,这篇文章还是引起了网友们的强烈共鸣。文章作者Roger Schank是人工智能(AI)领域元老人物,认为IBM对他们的Watson项目夸大其词,在鲍勃迪伦出演的IBM广告中,Watson认知系统识别出了鲍勃迪伦作品的关键主题为:“时间流逝”和“爱情消逝”,但是熟悉鲍勃迪伦的人都知道,他的歌曲关键主题是“反战歌曲”,因此,Roger Schank认为Watson并不能做到基于上下文语境的推理。
基于上下文语境的推理无疑是AI领域的一个难题,在医疗领域,例如病例数据中“哮喘”这个词可能存在于多种语境下:患者目前诊断为哮喘、患者有哮喘史或者患者排除有哮喘等等。AI系统处理病历数据识别出哮喘这个词,但是在无法识别上下文语境的情况下做出错误推理的风险是极高的。
临床医学术语标准SNOMED CT(SCT)中有专门表示上下文语境的概念,例如,疾病诊断为“怀疑哮喘”在SCT中就对应概念:394967008 | Suspected asthma |,“排除心脏病”在SCT中就对应概念:394926003 | Heart disease excluded | ,就种表示上下文语境的概念在SCT中有非常全面的收录,而作为统计分类标准的ICD并未收录此类概念。
基于SCT可表示上下文语境的特征,可以从语义层面辅助AI实现对EHR数据基于上下文语境的推理。在具体实施过程中,可将SCT术语模型与EHR系统信息模型进行术语绑定,有效利用SCT术语模型进行EHR数据的标准化存储及基于语义的更深层次应用。
EHR系统信息模型中可进行术语绑定的信息可以是完整的信息模型、单个数据组、数据元素、数据类型属性或模型中列出的数据值等,下图以患者诊断记录里“怀疑急性哮喘”为例,展示具有上下文语境信息是如何与SCT术语模型进行术语绑定:
SCT中定义了大量临床医学中使用的表示上下文语境的术语,同时包含人体结构、临床发现、药物等19个临床内容,超过32万个概念,基于本体模型,具有丰富的语义关联能力,因此,她可以最大可能的让计算机“理解”人类的自然语言,为AI在医疗大数据中的各种应用奠定了坚实的基础。
领取专属 10元无门槛券
私享最新 技术干货