在深入学习模型的推理api中,使用了一个烧瓶api(使用gunicorn) .这个特定的推理过程是非常密集的cpu (尚未使用gpu )。
基于以下方面将其部署到kubernetes集群的最佳实践是什么:
发布于 2020-04-06 10:56:15
特别是,如果您将模型加载到内存中,并且模型本身很大,但是多线程设置可以共享它的一个副本,那么一个大荚可以比16个小豆荚占用更少的内存。如果模型是直接被COPY
编辑到Docker映像中的,并且应用程序代码是mmap()
的,那么您可能可以在内核层共享内存。
如果模型本身很小,并且大部分内存都用于处理,它仍然会使用“更多”内存来拥有多个荚,但这只是运行时系统和HTTP服务的成本;如果没有共享,则不应该实质性地更改每个线程/任务/pod所需的内存。
https://stackoverflow.com/questions/61046957
复制相似问题