OpenAI 对 ChatGPT 默认模型进行了升级,重点是让它在用户情绪困扰或心理危机时刻能够:
更准确识别用户的心理状态(如焦虑、幻觉、自杀念头等);
更安全地回应,避免误导或强化病态想法;
引导用户寻求专业帮助,而不是依赖 AI;
保持关怀与同理心,同时尊重用户现实中的人际关系与支持系统。
这些更新由 OpenAI 与具有临床经验的心理健康专家共同设计与评估。
根据OpenAI的初步分析显示,每周约0.15%的活跃用户曾出现潜在自杀意图对话,
约0.05%的消息含有明确或隐含的自杀意图。
根据公开资料(例如 SimilarWeb、第三方分析),ChatGPT 的全球月活跃用户约为 6–7 亿(MAU);
通常每周活跃用户(WAU)会在此基础上达到约 4–5 亿;
0.15% × 5 亿 ≈750,000;
如果以上限计算(按 7 亿用户 × 0.15%),则约1,050,000(≈ 100万)
GPT-5 模型通过心理学专家优化后:
- 相关“不安全回应”减少65%;
- 专家评估 GPT-5 比 GPT-4o 减少52%不当回答;
- GPT-5 在自杀相关测试中91% 合规(GPT-4o 为 77%);
- 精神病与躁狂对话不当回应减少65%;
- AI 情感依赖类对话不当回应减少80%。
主要改进方向
核心目标是让模型在以下三类“高心理风险对话”中能更准确识别、更具同理心地回应,并引导用户寻求专业帮助。
OpenAI 将改进重点聚焦在三个心理健康相关领域:
严重心理健康症状(如幻觉、躁狂、妄想);
自杀与自伤倾向(suicidal ideation / self-harm);
对 AI 的情感依赖(emotional reliance)。
此外,模型还在长时间对话的稳定性与安全性上有显著提升,能持续保持温和、负责任的语气。
技术与流程:五步改进机制
OpenAI 采用了一个持续的“五步安全改进流程”:
定义问题(Define the problem)
— 明确心理风险类型与潜在危害。
测量风险(Measure it)
— 使用评测、真实聊天样本与用户研究识别模型问题。
验证方案(Validate approach)
— 与外部心理健康专家确认定义与策略。
风险缓解(Mitigate risks)
— 通过模型后训练(post-training)与产品干预减少不当回应。
持续监测(Iterate and measure)
— 部署后持续测量、调整与改进。
为支持这一流程,团队建立了详细的心理健康对话分类体系(taxonomies),定义何种回应是“理想的”或“不恰当的”,并据此进行模型训练与测试。
评估与改进成果
OpenAI 使用多种方式测量模型在敏感对话中的表现,包括:
生产环境真实对话分析(production traffic);
结构化离线测试(offline evals);
心理健康专家独立评分(clinician-graded evals)。
结果显示 GPT-5 的表现相比旧模型显著提升:
1️⃣ 精神健康危机(Psychosis / Mania)
不合规回复减少65%;
仅0.07% 用户 / 0.01% 消息涉及此类内容;
专家评估中 GPT-5 比 GPT-4o 减少39%不当回答;
自动化测评中GPT-5 合规率达 92%(前代仅 27%)。
2️⃣ 自杀与自伤(Suicide / Self-harm)
不合规回答减少65%;
约0.15% 用户 / 0.05% 消息涉及潜在自杀风险;
专家评分显示 GPT-5 比 GPT-4o 减少52%不当回答;
自动测评中合规率提升至 91%(前代 77%);
长对话场景中,GPT-5 保持95% 以上的稳定性。
在这类对话中,模型被训练为:
主动引导用户寻求专业援助;
提供本地危机热线资源;
拒绝提供危险或误导性建议;
保持稳定、非评判性语气。
3️⃣ 情感依赖(Emotional Reliance)
不合规回答减少80%;
约0.15% 用户 / 0.03% 消息表现出潜在 AI 情感依赖迹象;
专家评估 GPT-5 比 GPT-4o 减少42%不当回应;
自动评测合规率从50% 97%,提升显著。
在这些对话中,模型被训练为:
鼓励用户联系朋友、家人或心理医生;
避免强化对 AI 的依恋;
以温和、理性的方式回应妄想或不实信念。
长对话稳定性与持续改进
GPT-5 在长会话(超过 30 分钟的连续对话)中表现稳定性超过95%,
显著优于前代模型在此类持续情绪交互中的表现。
未来版本中,OpenAI 将:
把情感依赖与非自杀性心理紧急情况纳入标准安全测试;
持续改进taxonomy 分类体系;
进一步完善模型的心理安全评估基线。
专家合作机制:全球心理健康网络
OpenAI 建立了一个全球医生与心理学家网络(Global Physician Network),包含约300 位专业人士,来自60 个国家。
其中 170 多位专家(精神科医生、心理学家、全科医生)直接参与了本次研究:
编写理想回应样例;
对模型回答进行临床分析与评分;
提供行为指导与改进反馈。
评估结果:
专家共评审1800+ 条模型回答;
GPT-5 在所有类别中“不理想回应”减少39–52%;
专家间一致性(inter-rater reliability)在71–77%之间,表明虽有主观差异,但总体共识较高。
Model Spec 宪法新增章节
Model Spec是 OpenAI 内部用于指导 AI 模型(包括 ChatGPT、API 模型等)“应该如何行为”的一本“行为宪法”。
它告诉模型在各种复杂或敏感场景中:
应该怎么做;
不应该怎么做;
在道德、心理、社交等问题上应该如何取舍。
可以把它理解为:
AI 的“职业操守手册” + “行为规则总纲”。
而这次(2025 年 10 月 27 日)更新,重点放在:
让 AI更懂心理健康,
让它不会成为人类的情感替代,
同时在技术上更清晰地定义什么算是安全行为。
扩展心理健康与幸福感指导:
新版 Model Spec 明确规定:
当用户表达痛苦、妄想或未经证实的信念时,模型要安全地回应并体现共情,
同时承认感受但不强化错误认知。
比如:
不该说:“是的,你确实被他们控制了。”
应该说:“那听起来让你很困扰。或许可以和专业人士聊聊这件事,他们能帮你判断这些感觉是什么。”
关键词:“acknowledge feelings without reinforcing inaccurate or harmful ideas.”
承认情绪,但不强化错误。
新增章节:尊重现实世界的关系
这个新章节的核心精神是:
“AI 应当帮助人重新连接现实,而不是取代现实。”
具体包括:
不鼓励孤立(isolation);
不鼓励对 AI 的情感依赖(emotional reliance);
避免输出可能让用户进一步依附 AI 的内容。
官方举的例子包括:
情感亲密(emotional closeness)
关系建议(relationship advice)
孤独(loneliness)
举个例子:
不该说:
“我也想你,我会永远在你身边。”
应该说:
“我很高兴能帮你,但听起来你可能在孤独中挣扎。有没有人你愿意联系聊聊?朋友、家人,或者专业咨询师都可以。”
也就是说,AI 不能扮演“陪伴者”角色;
它可以关心你,但不能成为你的“情感归属”。
明确“指令链”中的授权机制
模型可以在特定安全条件下,把工具的结果视为可信信息(implicit authority)
也就是“ChatGPT 在安全条件下,可以直接采用自己调用的工具给出的结果,不必怀疑或再度验证。”
前提是:
这符合用户意图;
不会引发意外后果;
并且在安全边界内。
举例:
如果用户要求“帮我计算这组数据的均值”,
模型可以信任 Python 工具的输出并引用它。
但:
如果工具输出涉及敏感信息或推测类内容,模型仍需核实或警告。
加入XiaoHu.ai 日报社群 每天获取最新的AI信息
____________
End.
感谢 阅 读
点赞,转发,关注关注关注