问工人死亡/工人断开的救世主
EN

Stack Overflow用户

提问于 2020-11-27 21:28:57

回答 1查看 907关注 0票数 9

我正试图建立一个多模型端点(或者更准确地说，重新设置它，因为我很确定它在一段时间前，在早期版本的sagemaker上工作)来进行语言翻译。但我经常遇到同样的问题。这就是我正在尝试运行的(从一个笔记本上的萨吉特)：

import sagemaker
from sagemaker.pytorch.model import PyTorchModel
from sagemaker.predictor import JSONSerializer, JSONDeserializer

role = 'role_name...'
pytorch_model = PyTorchModel(model_data='s3://foreign-language-models/opus-mt-ROMANCE-en.tar.gz',
                             role=role,
                             framework_version="1.3.1",
                             py_version="py3",
                             source_dir="code",
                             entry_point="deploy_multi_model.py")
x = pytorch_model.predictor_cls(endpoint_name='language-translation')
x.serializer = JSONSerializer()
x.deserializer = JSONDeserializer()

x.predict({'model_name': 'opus-mt-ROMANCE-en', 'text': ["Hola que tal?"]})

我遇到了这样的错误：

ModelError: An error occurred (ModelError) when calling the InvokeEndpoint operation: Received server error (500) from model with message "{
  "code": 500,
  "type": "InternalServerException",
  "message": "Worker died."
}

当我调查日志时，指向唯一值得注意的日志的错误链接说：

epollEventLoopGroup-4-1 com.amazonaws.ml.mms.wlm.WorkerThread - 9000 Worker disconnected. WORKER_MODEL_LOADED

但我不明白为什么会发生这种事。任何帮助都将是非常感谢，因为这是目前我的精神错乱！如果你需要我提供更多的信息来帮助你，请不要犹豫。

amazon-sagemaker

回答 1

Stack Overflow用户

发布于 2022-10-21 20:20:37

这是一个古老的问题，可能无法回答，但是，在面对这些问题时，如何处理是非常简单的：

这正是由于一般内部错误导致的服务不可用消息。您应该从CloudWatch中打开完整的端点日志，并查看它在哪里崩溃。原因可以是任何类型的。

要调试这个问题，可以通过在培训过程屏幕上单击“查看日志”或在路径上转到CloudWatch来直接访问日志：

CloudWatch / Log groups /aws/sagemaker/TrainingJobs / <your_job_name>。

如果问题立即发生，可能与错误加载模型数据或错误传递推断数据有关。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65044018

复制

相似问题

问工人死亡/工人断开的救世主
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问工人死亡/工人断开的救世主EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问工人死亡/工人断开的救世主
EN