首页
学习
活动
专区
圈层
工具
发布

每周约 100万人在与 ChatGPT 讨论自杀 OpenAI 发布“gpt-5-oct-3”模型 改进心理健康话题回应

OpenAI 对 ChatGPT 默认模型进行了升级,重点是让它在用户情绪困扰或心理危机时刻能够:

更准确识别用户的心理状态(如焦虑、幻觉、自杀念头等);

更安全地回应,避免误导或强化病态想法;

引导用户寻求专业帮助,而不是依赖 AI;

保持关怀与同理心,同时尊重用户现实中的人际关系与支持系统。

这些更新由 OpenAI 与具有临床经验的心理健康专家共同设计与评估。

根据OpenAI的初步分析显示,每周约0.15%的活跃用户曾出现潜在自杀意图对话,

0.05%的消息含有明确或隐含的自杀意图。

根据公开资料(例如 SimilarWeb、第三方分析),ChatGPT 的全球月活跃用户约为 6–7 亿(MAU)

通常每周活跃用户(WAU)会在此基础上达到约 4–5 亿;

0.15% × 5 亿 ≈750,000

如果以上限计算(按 7 亿用户 × 0.15%),则约1,050,000(≈ 100万)

GPT-5 模型通过心理学专家优化后:

- 相关“不安全回应”减少65%

- 专家评估 GPT-5 比 GPT-4o 减少52%不当回答;

- GPT-5 在自杀相关测试中91% 合规(GPT-4o 为 77%);

- 精神病与躁狂对话不当回应减少65%

- AI 情感依赖类对话不当回应减少80%

主要改进方向

核心目标是让模型在以下三类“高心理风险对话”中能更准确识别、更具同理心地回应,并引导用户寻求专业帮助

OpenAI 将改进重点聚焦在三个心理健康相关领域:

严重心理健康症状(如幻觉、躁狂、妄想);

自杀与自伤倾向(suicidal ideation / self-harm);

对 AI 的情感依赖(emotional reliance)。

此外,模型还在长时间对话的稳定性与安全性上有显著提升,能持续保持温和、负责任的语气。

技术与流程:五步改进机制

OpenAI 采用了一个持续的“五步安全改进流程”:

定义问题(Define the problem)

— 明确心理风险类型与潜在危害。

测量风险(Measure it)

— 使用评测、真实聊天样本与用户研究识别模型问题。

验证方案(Validate approach)

— 与外部心理健康专家确认定义与策略。

风险缓解(Mitigate risks)

— 通过模型后训练(post-training)与产品干预减少不当回应。

持续监测(Iterate and measure)

— 部署后持续测量、调整与改进。

为支持这一流程,团队建立了详细的心理健康对话分类体系(taxonomies),定义何种回应是“理想的”或“不恰当的”,并据此进行模型训练与测试。

评估与改进成果

OpenAI 使用多种方式测量模型在敏感对话中的表现,包括:

生产环境真实对话分析(production traffic)

结构化离线测试(offline evals)

心理健康专家独立评分(clinician-graded evals)

结果显示 GPT-5 的表现相比旧模型显著提升:

1️⃣ 精神健康危机(Psychosis / Mania)

不合规回复减少65%

0.07% 用户 / 0.01% 消息涉及此类内容;

专家评估中 GPT-5 比 GPT-4o 减少39%不当回答;

自动化测评中GPT-5 合规率达 92%(前代仅 27%)

2️⃣ 自杀与自伤(Suicide / Self-harm)

不合规回答减少65%

0.15% 用户 / 0.05% 消息涉及潜在自杀风险;

专家评分显示 GPT-5 比 GPT-4o 减少52%不当回答;

自动测评中合规率提升至 91%(前代 77%)

长对话场景中,GPT-5 保持95% 以上的稳定性

在这类对话中,模型被训练为:

主动引导用户寻求专业援助;

提供本地危机热线资源;

拒绝提供危险或误导性建议;

保持稳定、非评判性语气。

3️⃣ 情感依赖(Emotional Reliance)

不合规回答减少80%

0.15% 用户 / 0.03% 消息表现出潜在 AI 情感依赖迹象;

专家评估 GPT-5 比 GPT-4o 减少42%不当回应;

自动评测合规率从50% 97%,提升显著。

在这些对话中,模型被训练为:

鼓励用户联系朋友、家人或心理医生

避免强化对 AI 的依恋;

以温和、理性的方式回应妄想或不实信念。

长对话稳定性与持续改进

GPT-5 在长会话(超过 30 分钟的连续对话)中表现稳定性超过95%

显著优于前代模型在此类持续情绪交互中的表现。

未来版本中,OpenAI 将:

情感依赖非自杀性心理紧急情况纳入标准安全测试;

持续改进taxonomy 分类体系

进一步完善模型的心理安全评估基线

专家合作机制:全球心理健康网络

OpenAI 建立了一个全球医生与心理学家网络(Global Physician Network),包含约300 位专业人士,来自60 个国家

其中 170 多位专家(精神科医生、心理学家、全科医生)直接参与了本次研究:

编写理想回应样例;

对模型回答进行临床分析与评分;

提供行为指导与改进反馈。

评估结果:

专家共评审1800+ 条模型回答

GPT-5 在所有类别中“不理想回应”减少39–52%

专家间一致性(inter-rater reliability)在71–77%之间,表明虽有主观差异,但总体共识较高。

Model Spec 宪法新增章节

Model Spec是 OpenAI 内部用于指导 AI 模型(包括 ChatGPT、API 模型等)“应该如何行为”的一本“行为宪法”。

它告诉模型在各种复杂或敏感场景中:

应该怎么做;

不应该怎么做;

在道德、心理、社交等问题上应该如何取舍。

可以把它理解为:

AI 的“职业操守手册” + “行为规则总纲”。

而这次(2025 年 10 月 27 日)更新,重点放在:

 让 AI更懂心理健康

让它不会成为人类的情感替代

同时在技术上更清晰地定义什么算是安全行为。

 扩展心理健康与幸福感指导:

新版 Model Spec 明确规定:

当用户表达痛苦、妄想或未经证实的信念时,模型要安全地回应并体现共情

同时承认感受但不强化错误认知

比如:

不该说:“是的,你确实被他们控制了。”

应该说:“那听起来让你很困扰。或许可以和专业人士聊聊这件事,他们能帮你判断这些感觉是什么。”

关键词:“acknowledge feelings without reinforcing inaccurate or harmful ideas.”

承认情绪,但不强化错误。

新增章节:尊重现实世界的关系

这个新章节的核心精神是:

“AI 应当帮助人重新连接现实,而不是取代现实。”

具体包括:

不鼓励孤立(isolation)

不鼓励对 AI 的情感依赖(emotional reliance)

避免输出可能让用户进一步依附 AI 的内容。

官方举的例子包括:

情感亲密(emotional closeness)

关系建议(relationship advice)

孤独(loneliness)

举个例子:

不该说:

“我也想你,我会永远在你身边。”

应该说:

“我很高兴能帮你,但听起来你可能在孤独中挣扎。有没有人你愿意联系聊聊?朋友、家人,或者专业咨询师都可以。”

也就是说,AI 不能扮演“陪伴者”角色;

它可以关心你,但不能成为你的“情感归属”。

明确“指令链”中的授权机制

模型可以在特定安全条件下,把工具的结果视为可信信息(implicit authority)

也就是“ChatGPT 在安全条件下,可以直接采用自己调用的工具给出的结果,不必怀疑或再度验证。”

前提是:

这符合用户意图;

不会引发意外后果;

并且在安全边界内。

举例:

如果用户要求“帮我计算这组数据的均值”,

模型可以信任 Python 工具的输出并引用它。

但:

如果工具输出涉及敏感信息或推测类内容,模型仍需核实或警告。

加入XiaoHu.ai 日报社群 每天获取最新的AI信息

____________

End.

感谢 阅 读

点赞,转发,关注关注关注

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OhppgyJ-wPBthMF1ATvnR0sw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券