专栏首页arxiv.org翻译专栏面向农村卫生信息获取的多语种医学问答与信息检索(CS)

面向农村卫生信息获取的多语种医学问答与信息检索(CS)

在若干发展中国家的农村地区,基本无法获得高质量的医疗保健、医疗基础设施和专业诊断。这些地区中有许多正逐渐接入互联网基础设施,尽管连接不够强大,无法与医生进行持续沟通。由于无法获得医疗服务、没有患者以前的健康记录以及无法获得以土著语言编写的信息而导致的若干死亡是可以轻易避免的。在本文中,我们描述了一种利用机器学习和自然语言处理(NLP)技术的显著进步来设计一个低资源、多语言和初步的第一接触点医疗助理模型的方法。我们的贡献包括定义命名实体识别、与语言无关的句子嵌入、自然语言翻译、信息检索、问答和最终查询处理的生成式预训练所需的自然语言处理管道。我们在这一管道中获得了有希望的结果,并初步获得了EHR(电子健康记录)分析的文本摘要,供医务人员阅读以进行诊断。通过这个NLP管道,我们的目的是向用户提供初步的医疗信息,而不是声称要取代合格的医生的诊断。利用来自主题专家的输入,我们已经编译了一个大型语料库,以便针对特定任务对基于BioBERT的自然语言处理模型进行预处理和微调。我们希望NLP体系结构的最新进展(其中一些是高效和保护隐私的模型)能够进一步提高我们的解决方案的影响,并提高单个任务的性能。

原文题目:Multilingual Medical Question Answering and Information Retrieval for Rural Health Intelligence Access

原文:In rural regions of several developing countries, access to quality healthcare, medical infrastructure, and professional diagnosis is largely unavailable. Many of these regions are gradually gaining access to internet infrastructure, although not with a strong enough connection to allow for sustained communication with a medical practitioner. Several deaths resulting from this lack of medical access, absence of patient's previous health records, and the unavailability of information in indigenous languages can be easily prevented. In this paper, we describe an approach leveraging the phenomenal progress in Machine Learning and NLP (Natural Language Processing) techniques to design a model that is low-resource, multilingual, and a preliminary first-point-of-contact medical assistant. Our contribution includes defining the NLP pipeline required for named-entity-recognition, language-agnostic sentence embedding, natural language translation, information retrieval, question answering, and generative pre-training for final query processing.

We obtain promising results for this pipeline and preliminary results for EHR (Electronic Health Record) analysis with text summarization for medical practitioners to peruse for their diagnosis. Through this NLP pipeline, we aim to provide preliminary medical information to the user and do not claim to supplant diagnosis from qualified medical practitioners. Using the input from subject matter experts, we have compiled a large corpus to pre-train and fine-tune our BioBERT based NLP model for the specific tasks. We expect recent advances in NLP architectures, several of which are efficient and privacy-preserving models, to further the impact of our solution and improve on individual task performance.

原文链接:https://arxiv.org/abs/2106.01251

原文作者:Vishal Vinod, Susmit Agrawal, Vipul Gaurav, Pallavi R, Savita Choudhary

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 腾讯孟昭莉:互联网+三农,一揽子解决方案

    ?   在8月11日晚举办的第14期互联网前沿沙龙上,腾讯研究院首席经济学家孟昭莉在发表题为“互联网+三农:一揽子解决方案”主题演讲时表示,中国存在农业生产形...

    腾讯研究院
  • “互联网+”赋能于农: 现状及展望

    ?                                        腾讯...

    腾讯研究院
  • 【智慧医疗】如何通过视频流媒体平台EasyNVR+EasyNTD搭建医疗行业视频监控平台?

    随着我国逐年加大对医疗体制改革以及新农村建设的投入,医疗行业发展迅猛,安防系统在其中的应用也广受关注。当前新农合监控机制还存在一系列问题,如监控运行体系不完善,...

    EasyNVR
  • 重磅!13部门发文支持新业态新模式健康发展,鼓励文旅领域产品智能化升级

    ? 7月15日,国家发展改革委等13个部门联合发布《关于支持新业态新模式健康发展激活消费市场带动扩大就业的意见》(以下简称“意见”),意见提出培育发展共享经济...

    腾讯文旅
  • 设计适用于低资源环境的医疗IT系统 | TW洞见

    今日洞见 文章作者/配图来自ThoughtWorks:熊节。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体、网站...

    ThoughtWorks
  • 国务院正式印发《促进大数据发展行动纲要》(附视频、通知及全文)

    国务院印发促进大数据发展行动纲要   人民网北京9月5日电 据中国政府网消息,国务院9月5日公开发布《国务院关于印发促进大数据发展行动纲要的通知》。   《纲要...

    小莹莹
  • 明医众禾姜强:始于互联网医疗,用新技术“改造”基层医疗 | 镁客请讲

    谈起国内医疗的现状,多数人都会脱口而出“看病贵、看病难”六字,这也是明医众禾创始人姜强从创业之初就在思考的问题。

    镁客网
  • 2017最新总结政府大数据应用案例及启示

    政府拥有或控制,能够给政府组织带来社会或经济利益的数据资源,就是政府数据资产。这主要包括两个方面:

    华章科技
  • 政府大数据应用的案例和数据价值释放的方法

    在我国,政府部门掌握着全社会量最大、最核心的数据。以往地方政府提振经济一般是招房地产、工厂等,随着土地及人口红利殆尽,大数据成为与水电煤等一样重要的生产资料,成...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券