大数据还是大数据库?

众所周知,大数据势头不可阻挡。但是,放疗领域是有其独特性的,数据的采集和分类是不同于一般医院信息系统。同时,不同的用户,例如医生,保险公司,信息交流中心等,对数据的要求也不一样。如何满足这些不同的要求,如何面临这样的挑战?最近医学物理杂志发表了一篇文章《Performance/Outcomes data and physician process challenges for pratical big data efforts in radiation oncology》基本上总结了这些情况及对策。

首先,放疗领域数据要归一化,要有一致的标准。例如勾画的名称,计划的名称,束流的次序等。再有,就是不但要有剂量信息,还需要有空间信息。例如再次放疗,放疗位置的重叠区更加重要。

文章中列举了目前美国大学和一些机构存在的数据库,这也是本文章的亮点,简介如下:

M-ROAR 密西根大学的数据库。该数据库融合放疗和医院信息系统,可以输入肿瘤分期,诊断代码,疼痛评估分,病人自报治疗效果,及Common Terminology Criteria for Aderse Events (CTCAE)评分。利用微软SQL数据库,目前有17000记录。自动服务系统可以很方便提取信息。

MD Anderson系统。该系统集成EPIC医院信息系统及电子病例系统。目前有超过40个特殊的模板。这些模板可以很容易地从EPIC提取信息。病人的信息如病理条件,癌症分期,目前状态,症状,实验结果,放疗图像信息等都可以通过模板提取。

儿童质子注册系统(PPCR)。该系统2012年建立。目标是看儿童是否可以通过质子治疗获益。目前13个质子中心1800例已经输入。病理输入通过网站即可,该网站对所用质子中心开放。可收集病人基本信息,诊断,分期,健康基线,化疗,放疗,手术,诊断图像等信息。支持DICOM-RT结构。该系统也同MIM合作,可以存储大量图像数据。

Oncospace。由约翰霍普金斯大学开发。可存储放疗计划系统。目前有500多病人病例。目前有的数据来自约翰霍普金斯大学,华盛顿大学,维吉尼亚大学和多伦多Sunnybrook大学。

宾州大学ORQID系统。该系统目标是组织癌症病人的基本信息,生理特征,病理分期,基因信息,放疗信息和医生汇报的副作用。由28000病例。

美国老兵健康管理放疗实践评估系统。目前有40家放疗医院,超过每年15000病人输入的系统。该系统用于评估老兵放疗情况。HINGE接口被用来输入信息。HINGE可接受医生病历,DICOM-RT结构和DVH,并用自然语言查询,同时可以给出预测。

Mayo Clinic Florida系统。目前有3000多例。该系统使用Mayo医院和电子病历的接口来输入数据。

Radiogenomic Consortium (RGC)系统。建立于2009年。由NCI和NIH资助。主要是采集图像病理来分析预测癌症结果。目前有6000例前列腺,4500例乳腺数据。共有132家单位参加。

数据库的存在才能采集大数据,有了大数据才能进行分析和预测。但目前也存在很多问题和挑战。例如:数据的采集,数据库兼容问题,数据共享问题,标准化问题,数据提取信息等等。大数据道路还是任重道远啊。

这里谈谈笔者自己的一个想法:我们的世界是真实的还是虚幻的?我们能否镜面我们自己?能否在另外一个虚拟的世界创造出一个自己?并在现实的自己和虚拟的自己之间建立桥梁,来辅助现实的自己更健康和指导人生?这就是虚拟人平台的想法,基于云的虚拟世界平台,可惜志大才疏,只能想想,记录于此。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181027G049UZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券