首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

亲历OpenAI GPT服务宕机

  2023年10月19日,OpenAI的GPT服务遭遇了一次长达近5个小时的服务故障,众多依赖其服务的开发者和企业应用都受到了不同程度的影响。我作为其中一名开发者,深有体会,亲历了这一场“技术风暴”。

1. 故障现象

  早上八点多,我的应用《一个关注巴以局势的AI》前端API开始出现请求错误。这并不常见,我的首先注意到的是一条报错信息:“Internal server error”,随后的日志显示,这一问题并非偶发,而是持续不断地出现。

2023-10-20 00:47:41 - INFO - error_code=internal_error error_message='Internal server error' error_param=None error_type=auth_subrequest_error message='OpenAI API error received' stream_error=False2023-10-20 00:47:41 - ERROR - Error calculating correlation: Internal server error { "error": { "message": "Internal server error", "type": "auth_subrequest_error", "param": null, "code": "internal_error" }}500 {'error': {'message': 'Internal server error', 'type': 'auth_subrequest_error', 'param': None, 'code': 'internal_error'}} {'Date': 'Fri, 20 Oct 2023 00:47:41 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Content-Length': '166', 'Connection': 'keep-alive', 'vary': 'Origin', 'x-request-id': '2958f730522d0d56f435c60ed5ee4b29', 'strict-transport-security': 'max-age=15724800; includeSubDomains', 'CF-Cache-Status': 'DYNAMIC', 'Server': 'cloudflare', 'CF-RAY': '818d401d7aac5097-HKG', 'alt-svc': 'h3=":443"; ma=86400'}

2. OpenAI官方回应

  为了寻找问题的根源,我迅速访问了OpenAI的status页面,希望能够从官方处得到一些解释。结果如我所料,OpenAI已经发现此次服务故障并开始处置,但过程看起来并不顺利。从官方最后提供的时间线来看,此次故障从“Investigating”到“Resolved”的整个过程,持续了近5个小时。期间,ChatGPT网页访问不受影响。

3. 应用受影响情况

  此次GPT服务中断不仅仅影响了我的前端服务,后台负责收集新闻的AI Agent,也显示了连续的“Internal server error”和“Bad gateway”的报错日志。早上8点多,是AI Agent收集前一天夜间发布的新闻的时段。这意味着,在服务恢复后,我要尽快手动重启AI Agent的数据收集任务,否则可能无法及时为用户提供具有时效性的新闻分析结果。

2023-10-20 00:46:08 - INFO - error_code=502 error_message='Bad gateway.' error_param=None error_type=cf_bad_gateway message='OpenAI API error received' stream_error=False2023-10-20 00:46:08 - ERROR - Error when creating embedding: Bad gateway. {"error":{"code":502,"message":"Bad gateway.","param":null,"type":"cf_bad_gateway"}} 502 {'error': {'code': 502, 'message': 'Bad gateway.', 'param': None, 'type': 'cf_bad_gateway'}} {'Date': 'Fri, 20 Oct 2023 00:46:08 GMT', 'Content-Type': 'application/json', 'Content-Length': '84', 'Connection': 'keep-alive', 'X-Frame-Options': 'SAMEORIGIN', 'Referrer-Policy': 'same-origin', 'Cache-Control': 'private, max-age=0, no-store, no-cache, must-revalidate, post-check=0, pre-check=0', 'Expires': 'Thu, 01 Jan 1970 00:00:01 GMT', 'Server': 'cloudflare', 'CF-RAY': '818d3df4c83a8b36-HKG', 'alt-svc': 'h3=":443"; ma=86400'}2023-10-20 00:46:13 - INFO - error_code=internal_error error_message='Internal server error' error_param=None error_type=auth_subrequest_error message='OpenAI API error received' stream_error=False2023-10-20 00:46:13 - ERROR - Error when creating embedding: Internal server error { "error": { "message": "Internal server error", "type": "auth_subrequest_error", "param": null, "code": "internal_error" }}500 {'error': {'message': 'Internal server error', 'type': 'auth_subrequest_error', 'param': None, 'code': 'internal_error'}} {'Date': 'Fri, 20 Oct 2023 00:46:13 GMT', 'Content-Type': 'application/json; charset=utf-8', 'Content-Length': '166', 'Connection': 'keep-alive', 'vary': 'Origin', 'x-request-id': '8824b64292447d647e9ff229c540abaa', 'strict-transport-security': 'max-age=15724800; includeSubDomains', 'CF-Cache-Status': 'DYNAMIC', 'Server': 'cloudflare', 'CF-RAY': '818d3df609358b36-HKG', 'alt-svc': 'h3=":443"; ma=86400'}

4. 我采取的应急措施 

  赶在9点钟上班前,我更新了页面的错误提示信息(原先的错误提示并没有考虑GPT的API长时间不可用的情况)。

5. 后续与启示

  尽管OpenAI最终解决了这一故障,但这次事件也为我们敲响了警钟,提示我们在构建AIGC应用时,不能只依赖某一个大模型服务。不论是SaaS化的还是本地部署的大模型,都要有第二选择,为大模型服务的中断做好充分的备份和应急预案。由于各模型对相同Prompt的生成结果差别可能很大,AIGC时代应用开发者要面对的新挑战。

(文末彩蛋)

  这篇文章我尝试了个新的“写”法,我把OpenAI status页面等四张截图上传给了ChatGPT,让它写一篇自媒体新闻,然后我稍作修改就成了现在看到的这篇文章。请欣赏ChatGPT原作:

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4KJtG9w7e_LjPFIKSq7N3pg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券