首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

疾病关联网络构建及并发症预测模型

全文链接:https://tecdat.cn/?p=34303

分析师:Davis Luo

相关视频

例如在医疗健康领域,找到事物之间隐藏关联对于辅助诊断、知识发现等有重要的意义。

解决方案

任务/目标

从电子病历中提取患者的疾病信息,构建疾病关联网络,并据此进行并发症预测。

数据源准备

电子病历作为医疗信息的重要载体,有很大的挖掘空间和意义。同时,由于中文的多义性、表述不规范性,分析自然语言书写的电子病历也带来很大挑战。

根据提取数据要求的不同,可以采用不同方式处理中文文本。例如在这个工作中,采取中文分词、术语词典比对等方式,提取病历中关键信息。对于要求更高的数据,则可采取词向量、命名实体识别等方法提取数据特征。

数据清洗和初步统计

数据清洗的目的是去除无效数据、不完整数据、前后不一致数据等。

在病历数据特征提取中,去除患者隐私信息,保留基础信息,剔除无效诊断病历,剔除极罕见诊断数据(因其在病历中所占比例过小,无法进行学习和分析,存在过拟合可能)。

接下来,对数据进行初步统计形成数据概览。这一步的目的是为了加强对数据整体认识,确认数据质量,判断数据是否存在不合理的分布。

由于本项目旨在“知识发现”,因此所有数据均作为学习训练集,发现的“知识”采用发表文献验证的方式进行检验和验证。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OWok_THKCdWqg_QkjXM5K6yA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券