更年期和大数据:更年期相关ChaCha数据库的邻接图建模

既往研究人员习惯通过大样本调查或小样本定性研究来确定与绝经相关的健康信息。然而,在获取女性自身体验感受时,明确的调查问题可能会令其望而生畏,定性研究所应用的开放式访谈或可解决此问题。然而,定性研究通常也受到受试者所在地理区域或其他社会人口学特征的限制。

随着技术的进步,目前用户可通过按几个按键或按钮提出问题,因此已有许多可供选择的数据库。本研究旨在从ChaCha数据库中检测和明晰关于更年期的重要问题。

研究者应用邻接图(WAG)建模来检测群集并明晰绝经期相关主题的范围及其邻近度。相关问题的子集也被充分模拟。研究者将每个查询问题分成标记词(即有意义的单词和短语)并删除了停用词(即无意义的功能词)。剩下的单词依次被用于构建词汇表和二至三词的词组。出现至少10次的词组被用于构建网络图模型,研究者通过观察和删除不相关内容的集群来迭代地改进该模型。

最后,研究者通过搜索包含更年期和更年期相关术语的问题(例如更年期、潮热、盗汗、激素替代)确定了两个相关的查询子集。第一个子集包含13岁及以上人群的263363项问题,第二个子集包含来自40至62岁妇女的5892项查询问题。在第一个子集中,研究者确定了12个主题群:6个与绝经相关,6个相关性较小。在第二个子集中,研究者确定了15个主题群:11个与绝经相关,4个相关性较小。两项WAG模型中关于激素的查询问题均较普遍。 许多查询问题也反映出低词汇量和/或尴尬的感觉。(图)

图:263K更年期查询的邻接图(WAG)模型;将单词和词对混合在一起,以不同的颜色显示在集群中;圆的大小表示其中心性或其与整体WAG模型的中心性。

综上可见,研究者模拟了ChaCha用户在2009年至2012年期间提出的更年期相关查询问题。ChaCha数据可以单独使用或与其他大数据结合使用以确定驱动患者的教育需求并创建以患者为中心的干预措施。

来源:Menopause.Volume 24(7), July 2017, p783–788

世界妇产科之窗

妇产科学术资讯最前沿

继续医学教育 移动医疗产品

医药学术推广 在线学术平台

患者科普教育 专业医患沟通

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180124G0O54900?refer=cp_1026

扫码关注云+社区