大数据挖出微博抑郁患者,研究结果经医学机构确认准确度可达83%

在微博上经常抱怨“去死”,或许会被甄别为抑郁患者。近期,一项“利用社交媒体数据挖掘识别抑郁倾向人群”的研究成果在网络引发热议,来自哈尔滨工业大学的研究人员称,通过构建抑郁倾向识别模型,实验室在新浪微博近亿用户中识别出几百名重度抑郁症患者,研究结果经医学机构确认准确度可达83%。相关人士表示,这项研究结果或成为抑郁症临床诊断之外的新兴诊断方法。

建构预测模型在新浪过亿用户中扫描

该项研究由哈工大“社会网络与数据挖掘”联合实验室与国内社交媒体数据挖掘公司“宏博知微”共同开展。实验室负责人哈工大博士于霄告诉记者,他是在微博上几位抑郁症患者自杀事件发生后开始关注抑郁症患者这一群体的,“仔细看这些人的微博,非常触目惊心,负面情绪在每一条都很明显,当时我们就感叹,如果通过数据识别这一群体,让其亲友能早点干预,也许可以避免悲剧发生。”

如何识别抑郁群体?于霄和同事首先是挑选新浪微博用户中被确认为抑郁症的人群作为样本,通过计算机强大的计算能力分析样本数据,从这些数据获取出规律后建构预测模型。有了数据模型,计算机就可以用这一模型扫描新浪微博上过亿用户了。

“计算机算法会包括自然语言处理、时间序列、机器学习等,比如失眠在抑郁症患者中比例非常高,会成为语言处理的关键词,机器还会对关键词出现的频率和时间段打分。”于霄说道。

约200用户被人工判定为抑郁患者

计算机最终统计的数据比他们想象中要更为丰富:存在抑郁倾向的微博用户与普通用户发博时间有明显差异,这部分人群发博高峰在23点,其夜间活跃度比普通用户平均约高出30%。该群体微博关键词为:死、抑郁症、生命、痛苦、自杀。有60%为女性,40%为男性,女性比例比男性略高,也与之前两位女性微博用户@走饭、@ sienna赛娜因抑郁症而自杀的报道相符。

“有很多数据很值得关注的,比如有些表现出抑郁症倾向的用户除了喜欢用小号来表达痛苦情绪,还有群落聚集趋势,他们会同时关注很多其他同类人群,有的甚至会习惯每天到已经自杀的用户微博上评论‘今天你还好吗?’,这听起来有点瘆人。”

截至目前,实验室从识别出的抑郁倾向用户中,辅以人工判定约200名抑郁症患者,研究者发现,有多人在微博中称准备自杀。

据于霄介绍,除了抑郁倾向人群外,精神类疾病、危害社会行为(有暴力倾向人群)也是实验室数据研究的方向,希望能够对这些人群的提前干预提供数据支持。

焦点争议

数据挖掘触犯网友隐私?

有网友称:“一想到死了微博还要被翻,就连死都毫无尊严”

事实上,利用大数据干预抑郁症诊断及治疗是否可行,微博用户对此看法不一。持反对态度的网友@sen哥-认为:“一想到万一我死了微博也会被素不相识的人翻出来,就觉得连死这件事都他妈的毫无尊严。”持支持态度的网友@ La_Prairie认为:“多一些关爱,就少一些遗憾。”

中山大学心理学系教授周欣悦也对此表示担忧,”抑郁症患者未必就愿意让别人知道自己有抑郁症,如果公开给别人贴标签就不太好。

霄告诉记者,大数据的隐私权一直是敏感话题,当用户看到自己的性格特征、人际交往等通过数据挖掘整理被罗列出来,肯定会很惊讶,但实验团队认为,由于搜集的是微博上用户自愿公开的数据,并非私人聊天记录,用户被侵犯的感觉会小很多,当然这还需要整个社会对大数据挖掘的理解。

不过于霄强调,不会把识别出的抑郁症用户数据对外公布,他们希望的是这些数据能得到卫生部门或医疗机构的重视和介入。“对愿意为这部分人群提供帮助的专业机构,他建议可以联系其新浪微博@社会网络与数据挖掘,共同研究微博抑郁倾向用户自杀干预方案。

大数据识别,结论科学吗?

心理医生:可做初筛不适合作为确诊手段

“大数据”正在成为当下的一个热词,于霄与其伙伴们所运用的正是这一利器。但这项研究的科学性到底如何?业界如何评价?能否作为公认的心理学评估手段?于霄告诉记者,他们把这些数据提供给北京、上海的一些精神病医院,得到了不少专家的认可,“不过专家会私下里说,应该就是(抑郁症患者)了,但不会明确判别,从医学手段来看,这样就做判断会显得不严谨。”

中山三院精神科副主任医师陶炯昨日接受南都记者采访时认为,利用大数据来识别抑郁症患者,有一定参考价值,一定程度上反映了用户的情绪,可以作为对这个群体初筛的一种方式。但就此给这名微博用户贴上“抑郁症”标签还不行,因为每个人都会有情绪发泄的时候,如何甄别这些是否“假阳性”,要确诊还需要医生面谈。他建议,可以给识别出的高危人群做些专业测试,比如可以让用户在网络上填些量表问卷。

与陶炯看法不太相同的是,中山大学心理学系周欣悦教授认为,这种关键词联系是相关关系,不是因果关系,预测的人群能否作为真正适合干预的人群很难说,需要更深入地研究。

背景资料

据公开数据,我国抑郁症发病率约为3%~5%,目前已有超过2600万人患抑郁症。全国地市级以上医院对抑郁症的识别率不到20%。

数据还显示,在过去50年里,我国平均每年有28.7万人死于自杀,200万人自杀未遂。自杀人群中有63.5%患有抑郁症,但仅9%在自杀前曾到精神科或心理咨询机构就诊。

来源:36大数据

原文发布于微信公众号 - 数据的力量(shujudeliliang)

原文发表时间:2014-11-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【数据分析】微信公众号用户行为研究

注:数据来源于艾瑞咨询,分享此数据主要在于想强调大家做号的同时多做数据分析。 最近把《增长黑客》再看了一遍,更加深知数据分析和挖掘的重要性。 只有对数据的正确分...

2263
来自专栏大数据文摘

清华数据院院长韩亦舜:大数据时代的数据伦理问题探究

2286
来自专栏顶级程序员

IT人永远不老?做梦!老程序员价值何在?

IT人永远不老?做梦!怎么可能?无论你现在是多么风华正茂,青春洋溢,终有成熟、老去的那天。

552
来自专栏机器人网

机械工程师的10条出路,看后你还会碌碌无为吗?

1. 设计工程师 模具、汽车、家电、工程机械、非标准设备等等各种机械设备的设计。用着常用的机械设计软件:AutoCAD、 Proe、UG等工具做产品结构设计或其...

2805
来自专栏悦思悦读

微信公众号,真的有必要运营吗?

3213
来自专栏腾讯数据中心

【行业资讯】程序猿、互联网从业者不得不关注的腾讯9大干货型公众号

小编经常听到许多人感慨到,在信息泛滥、微信公众号泛滥的时代,作为程序猿/互联网草根的一员,应该关注什么样的公众号?应各位汉纸妹纸的疑惑和要求,这期就给大家推送9...

2343
来自专栏PPV课数据科学社区

【案例】大数据挖出微博抑郁患者,研究结果经医学机构确认准确度

在微博上经常抱怨“去死”,或许会被甄别为抑郁患者。近期,一项“利用社交媒体数据挖掘识别抑郁倾向人群”的研究成果在网络引发热议,来自哈尔滨工业大学的研究人员称,通...

2654
来自专栏大数据和云计算技术

自然语言处理太难?按这个方式走,就是砍瓜切菜!

人工智能的研究和应用越发炙手可热,其中“机器学习、自动驾驶、语音识别、计算机视觉、自然语言处理、知识推理”这6个方向热度最为火爆。

972
来自专栏机器人网

恐惧与夸张?来源于那些不在AI领域工作的人?

在大部分人眼里,人工智能(AI)非常神秘,其实一点都不然。也许你每天都遇到它,尽管你并不知道。你的行动帮助它成长,然而你很少再去想它。人工智能就在你的口袋里,在...

3306
来自专栏华章科技

微软已确认收购 GitHub!网友们这样说……

GitHub 倾向于将公司出售给上市公司,之所以选择微软,是因为对其 CEO Satya Nadella 印象深刻。去年 8 月份,GitHub 的联合创始人兼...

641

扫码关注云+社区