现在市面上的大模型如kimi、chatgpt这些,他们是如何实现在线同时回答多个用户的问题的,也就是底层是如何实现并行的。假如我只有一张GPU,我如何设计来实现在不开启多个实例的前提下同时回答多个问题?
相似问题
领取专属 10元无门槛券
AI混元助手 在线答疑
洞察 腾讯核心技术
剖析业界实践案例