微软开源Deep Speed Chat：人人拥有ChatGPT的时代来了

make a bug

发布于 2023-07-15 14:25:15

3590

微软开源Deep Speed Chat

‍‍‍‍‍‍‍‍微软公布了一项开源框架DeepSpeed Chat，这个系统旨在实现模型训练中完整的RLHF流程，预示着高质量类ChatGPT模型的大规模使用时代正式来临。

DeepSpeed Chat的出现无疑带来了惊喜，特别是在开源社区长期呼吁OpenAI更“Open”的背景下。社区为了让更多的人能使用类ChatGPT模型，曾推出了LLaMa、Alpaca、Vicuna、Databricks-Dolly等模型，但在缺乏一个支持端到端的RLHF规模化系统的情况下，这些模型的训练仍然面临巨大困难。而DeepSpeed Chat的推出，正好填补了这一空白。

项目链接：https://github.com/microsoft/DeepSpeed

一键解锁千亿级ChatGPT，轻松省钱15倍

更值得一提的是，DeepSpeed Chat大幅降低了训练成本。由于高昂的多GPU设定成本，之前对于许多研究者而言，数千亿参数ChatGPT模型的训练无疑是一项艰巨的任务。而现在，通过混合引擎DeepSpeed-HE，你仅需1620美元和2.1天的时间，就能训练一个OPT-66B模型。而如果使用多节点、多GPU系统，DeepSpeed-HE能以更少的花费和时间完成更大规模的模型训练。

前Meta AI专家Elvis激动转发，称这是一件大事，并表示好奇DeepSpeed Chat和ColossalChat相比起来如何。

而对于我们普通用户来说，DeepSpeed Chat带来的13亿参数版ChatGPT在问答环节的表现更是令人振奋。这个模型不仅能理解问题的上下文关系，而且能给出质量相当高的答案。在多轮对话中，这个13亿参数版ChatGPT的性能也完全超出了此前对此规模模型的预期。

效果如何

经过DeepSpeed-Chat的训练，13亿参数版「ChatGPT」在问答环节上的表现非常亮眼。不仅能get到问题的上下文关系，而且给出的答案也有模有样。

在多轮对话中，这个13亿参数版「ChatGPT」所展示出的性能，也完全超越了这个规模的固有印象。

如何使用

一段代码，生成你的第一个ChatGPT！！当然，在体验之前，还需要把环境配置一下：

一杯咖啡，训完13亿参数版ChatGPT。如果你只有大约1-2小时的咖啡或午餐休息时间，也可以尝试使用DeepSpeed-Chat训练一个「小玩具」。团队特地准备了一个针对1.3B模型的训练示例，可在消费级GPU上进行测试。最棒的是，当你从午休回来时，一切都已准备就绪。配备48GB显存的消费级NVIDIA A6000 GPU：