专栏首页Reinvent Data Science结合 Milvus 的医疗问答辅助标记平台

结合 Milvus 的医疗问答辅助标记平台

✏️ 作者:DreamerQ,妙医佳健康科技集团

北京妙医佳健康科技集团有限公司是一家以健康数据追踪、人工智能健康干预能力为核心的健康科技公司。妙健康(more)是公司旗下的数字化精准健康管理平台,致力于为用户提供综合性健康服务一站式解决方案。因业务需求,公司需要搭建一个基于多重自然语言处理技术的问答辅助标记平台。

前期准备

1. 通过关键词寻找相关产品应用场景

通过网络流行的医学关键词发掘企业产品的应用场景——例如,通过“新冠肺炎”这一关键词,挖掘与其相关的药品说明书、医院处方、体检报告等应用场景。

2. 基于上下文窗口提取初始化特征

上下文窗口是指根据目标实体(词语)预测上下文语意相关实体的范围。首先,我们对文本进行大致分类,然后基于上下文窗口,对医学相关场景的文本构建初始化特征向量。然后,对同一个上下文窗口内的文本进一步细分,并利用开源的 BERT 模型对细分文本继续进行多分类序列训练,获取窗口序列的分类标识特征向量。因为医学实体来源于广泛的医学场景,我们为同类医学文本特征标记相同的医学实体。通过这种方法可以处理不同医学场景的数据,辅助发现同类医学实体,有利于对齐不同场景的医学实体数据。

构建上下文窗口的具体实现方法为:

  • 利用领域词典将文本加载到 Jieba 分词器中
  • 针对上 n 位词和下 n 位词构建一个滑动词窗口

具体实现代码如下:

实现步骤

搭建问答辅助标记平台中的实现步骤如下图所示:

  1. 利用上下文窗口,为医学领域内文本构建序列信息(特征向量)
  2. 以中心词作为各序列信息的标签
  3. 搭建基于医学领域实体的预训练语言模型 Medical Rbtl3
  4. 使用文本序列信息训练模型
  5. 将序列信息导入 Milvus 以支持后续搜索召回
  6. 通过人工验证重新验证类似实体排名

基于上下文表示消除医学实体的歧义

根据预先设定好的标准化实体映射表,我们可以将新的实体与实体映射表中的标准实体对齐,找到其对应的标准实体的集合。

首先我们需要利用语义表示模型进行句向量的训练。为了提高模型的训练速度,我们选择了由哈工大开发的 RoBERTa (a Robustly Optimized BERT Pretraining Approach) 模型。该模型进一步优化了 BERT 通用语义表示模型,提出了动态遮掩(Dynamic Masking)方法,并去除了预测下一个句子(Next Sentence Prediction)方法。同时,RoBERTa 模型采用了更大的样本数量,使用更多数据进行更长时间的训练,因而在多个任务中有着不错的表现。

在 RoBERTa 模型的基础上,我们进一步修改并提出了 RBRL3 模型。RBRL3 模型可以在仅损失少量效果的情况下大幅减少参数量,最终提升训练速度。为了保证模型效果,我们采用了统一上下 32 词汇窗口以提取原始特征向量。

具体实现代码如下:

RBRL3 模型经训练后,可以更好地在垂直领域内召回相似句子,作为医学实体相似度的依据。最终我们将医学样本数据划分为 2023 类,每类包含 20 条以上的向量样本,向量对应的 ID 映射到标准实体之上。新插入的向量具备相应的实体 ID 。最后对根据 ID 返回的原始映射进行相关的标注消歧工作。

下图为实际模型分类的结果:

Medical Rbtl3 模型是我们基于领域垂直词典重新设计的开源医疗版 Wobert 模型,其架构如上图所示。Wobert 模型是在哈工大的开源模型 RoBERT 基础上继预训练开发而成的,预训练任务为遮掩语言模型(Masked Language Model)。在初始化阶段,每个词都被 BERT 自带的分词器(tokenizer)切分为字,然后以字向量的平均作为词向量的初始化。

结合 Milvus 实现向量搜索召回

在使用 Medical Rbtl3 模型将文本转化为向量后,我们将向量保存到向量数据库 Milvus 中。Milvus 是一款开源的向量数据库,支持针对多种 AI 模型转化而来的非结构化数据向量提供搜索分析服务。Milvus 可广泛应用于计算机视觉、自然语言处理、语音识别、推荐系统以及新药发现。

具体实现方式为:

  1. 通过深度学习模型将非结构化数据转化为特征向量,并导入 Milvus。
  2. 对特征向量进行存储并建立索引。
  3. 接收到用户的向量搜索请求后,返回与输入向量相似的结果。

通常在压力测试中,即便是基于三层的 BERT 网络的向量数据搜索也是非常耗费系统资源的。而在压力测试中有着优异表现的 IVF_SQ8 向量索引成为了我们最终的选择。我们在两个服务器中共启动了 16 个 BERT 节点,模型的预测时间约为 32 ms,且能够处理约 60 个并发请求。

结果展示

最后我们对数据案例以及模型的训练结果进行展示。

数据案例

以下词典中的中心词在垂直领域转化 ID 后,这些词的上下文都会变成等长的序列信息,这也可以为后期模型推理过程加速。

具体实体

实体类型

实体上下窗口原始序列

恐惧

symptom

生计而奔波,承担作为老公和爸爸的双重责任,甚至要担负起两个家庭尽孝的责任。男人婚前恐惧症表现为害怕婚姻束缚自由的男人在骨子里比女人更渴望自由,即使深爱对方,也不情愿被婚姻束缚自由,甚至改变原有的生活方式,故产生了恐惧。

呕吐

symptom

没什么食欲了就想着等他吃完我再吃,不一会他结账就走了。这时我脑袋里突然有个念头,他打嗝会不会了我没察觉到,然后他的呕吐物掉进我的碗里了,然后他有囊虫病我因为没察觉到而被感染?

入睡困难

symptom

躯体症状:大部分抑郁病人都有躯体及其他生物症状,例如心悸、胸闷、胃肠不适、便秘、食欲下降和体重减轻。睡眠障碍突出,多为抑郁症主要以抑郁心境、思维迟缓和意志活动减退为主,多数病例还存在各种躯体症状。有悲观厌世和自杀打算,有自责自罪 。

疱疹

symptom

由单纯疱疹病毒(HSV)引起的性传播疾病,主要是HSV-2型,少数为HSV-1型。是常见的性病之一。生殖器可反复发作,对病人的健康和心理影响较大;可以到重庆市大坪医院,重庆医科大学附属第二医院,重庆市中山医院治疗。

模型训练结果

上图记录了 Epoch 训练一次样本的过程。我们发现,模型在训练至 15 次时,损失率基本维持不变。因此,我们可以确定该模型能在一定程度上辅助医学场景短样本的标记。

为减少标注人员工作,我们还增加了一个判别器,为返回的标准实体加入一个最相似的原始窗口上下文信息。为达到数据精排的效果,我们通过 Medical Rbtl3 模型训练构建了一个二分类模型。该模型会通过人工标注学习多分类和二分类过程,从而对齐未知实体。

总结

在问答系统中数据处理的工作中,系统需要判断一个实体是否存在于标准实体库中。对于新的实体,系统会通过分类模型对其上下文信息窗口构建对应的分类向量,然后利用 Milvus 进行向量的搜索召回,将新实体进行映射。

我们的平台已经在多个平台中上线,感谢 Milvus 研发团队,期待未来与 Milvus 的进一步合作!

Zilliz 以重新定义数据科学为愿景,致力于打造一家全球领先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的隐藏价值。

Zilliz 构建了 Milvus 向量数据库,以加快下一代数据平台的发展。Milvus 目前是 LF AI & Data 基金会的毕业项目,能够管理大量非结构化数据集。我们的技术在新药发现、计算机视觉、推荐引擎、聊天机器人等方面具有广泛的应用。

本文分享自微信公众号 - ZILLIZ(Zilliztech),作者:DreamerQ

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-07-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 海量数据中搜索精华价值:Milvus助力头部企业打造前沿AI搜索

    在今天这个大数据无处不在的时代,如何高效精确地对海量数据进行处理和分析,是摆在各行业头部企业与软件开发团队面前的重大挑战。传统的结构化、半结构化数据领域有着较为...

    深度学习与Python
  • “熊医生”出诊正确率超九成 医院:人工智能更多是辅助

    “熊医生”出诊 正确率超九成 广州日报讯(广州日报全媒体记者伍仞 通讯员易灵敏、陈昊)一年前,在信息化建设走在全国前列的广州市妇女儿童医疗中心,开始将大数据和人...

    企鹅号小编
  • 微软程骉:智能医疗产业化应用的挑战和解决之道

    【新智元导读】2016年12月18日,新智元百人峰会闭门论坛在微软亚洲研究院举行。微软亚太研发集团创新孵化总监程骉在会上带来了《对话即平台——智能医疗初探》的分...

    新智元
  • 报告丨人工智能与电子终端和垂直行业加速融合

    人工智能技术的快速发展,推动人工智能与电子终端和垂直行业加速融合,涌现出了智能家居、智能汽车、可穿戴设备、智能机器人等一批人工智能产品,并正在全面重塑家电、机器...

    用户1332428
  • 人工智能加“医真云”,每年让5700万人告别误诊

    “去拍个片子吧。”这是去医院看病常常能听到的话。现代医学诊断越来越倚重影像,专业医疗科学网站估计:医疗数据中有超过90%的数据来自于医学影像。然而,即便设备产生...

    量子位
  • 2018年医疗人工智能技术与应用白皮书(附下载)

    【导读】2017 年医疗人工智能发展迅速,产业格局风起云涌。人工智能在医疗领域中的应用已非常广泛,包括医学影像、临床决策支持、语音识别、药物挖掘、健康管理、病理...

    WZEARW
  • 谷歌进军医疗产业的7种武器

    大数据文摘
  • 腾讯AI Lab:AI辅助诊疗系统面临的三大技术挑战

    腾讯高校合作
  • 让早期肺癌不再难发现 “腾讯觅影” 在延安这家医院启动应用

    12月14日,腾讯人工智能(AI)医疗影像"腾讯觅影"在延安大学附属医院全面启动应用,通过"腾讯觅影"辅助医生开展智能辅助筛查,将有效提高医生的诊断效率和精度,...

    企鹅号小编
  • 专访 | 融到 3.8 亿的依图,正在人工智能医疗领域做什么?

    机器之心原创 作者:虞喵喵 上周(5 月 15 日),知名人工智能创业公司依图科技对外宣布,已于近日完成 C 轮融资。此轮融资高达 3.8 亿人民币,投资方包括...

    机器之心
  • 大湾区“AI+医疗”到底有多牛?

    相信很多看过电影《超能陆战队》的人,一定对其中那个体型胖嘟嘟的充气型智能机器人非常感兴趣,也会希望未来的生活中可以拥有这样一个医学AI智能守护在我们身边,守护我...

    华见智能
  • 腾讯医疗AI实验室主任范伟:过去一年,我们的探索与收获

    雷锋网《AI掘金志》频道:只做 AI +「安防、医疗、零售」三大传统领域的深度采访报道。

    AI掘金志
  • 数据科学通识第三讲:数据科学的应用

    目前数据科学已经广泛地应用到了各行各业中。从新兴的互联网产业到传统的工业、农业、能源、房地产、建筑、电子商务、文化、娱乐等多个行业领域,都在运用数据科学技术,改...

    数据酷客
  • 大数据技术:让看病更加靠谱!

    在早期,大部分医疗相关数据以纸质形式存在,而非电子数据存储,如正式医疗记录、费用记录、护士和医生书写的病例记录、处方药记录、X光记录、磁共振成像(MRI)记录、...

    大数据风风
  • 一文看尽科大讯飞年度发布会:医疗,是这家A股AI公司的新赛道

    李根 假装发自 凹非寺 量子位 报道 | 公众号 QbitAI 一年一度,科大讯飞总会通过年终发布会,披露一年成绩,发布最新战略。 与去往年不同,自Alpha...

    量子位
  • 英特尔的AI医疗“野心”:AI、云、大数据,三位一体攻破数据孤岛

    这也致使智能医疗的战场已经涌入无数新老玩家,但比起数据标准化、信息化起步早的金融等行业,医疗领域面临更严重的数据孤岛问题——数据零散且质量参差不齐。

    新智元
  • 业界 | 借助人工智能,百度推进医疗业务

    机器之心报道 作者:吴欣 经历一次重大业务框架调整之后,百度医疗大脑有了第一个应用项目。 4 月 26 日,百度医疗大脑宣布与国内社区医疗服务领导者社区 58...

    机器之心
  • 智慧医疗服务新领域探索加速

    □记者 孙梦 从用智能软件预约停车位、订餐、找护工,到医院用机器人配送药品、对医疗垃圾实施大数据管理……随着医院智慧服务内涵和外延的加速拓展,人们对于互联网医疗...

    企鹅号小编
  • MICS最新“新冠肺炎+AI”讲座:武汉协和放射科副主任与5家AI公司解读疫情最新进展

    AI能够在CT诊断新冠肺炎中做什么?沈定刚教授明确提出了三点:定量分析、前后片对比以及向医生推荐诊断优先级。

    AI掘金志

扫码关注云+社区

领取腾讯云代金券