英伟达、Hugging Face 和 ServiceNow 联合发布了 StarCoder2 系列开源AI大语言模型。
StarCoder2 模型是一系列 3B、7B 和 15B 模型,使用来自 Stack v2 数据集的 3.3 至 4.3 万亿个代码标记进行训练,包含 600 多种编程语言。
StarCoder2 模型的特点
StarCoder2 模型是基于 Transformer 架构的自然语言处理模型,可以理解和生成各种编程语言的源代码。
该系列模型包含三个模型,参数分别为 30 亿、70 亿和 150 亿,均基于 Stack v2 数据集训练,此数据集是 Stack v1 的七倍。
Stack v2 数据集包含了来自 GitHub、Stack Overflow、Codeforces 等平台的大量代码、问题、答案、讨论和数学公式,涵盖了 619 门编程语言,覆盖了从低资源语言(如 COBOL)到高资源语言(如 Python)的广泛范围。
StarCoder2 模型经过多种编程语言的训练,能够执行源代码生成、工作流生成和文本摘要等专业任务,助力开发人员提升工作效率。例如,开发人员可以输入自然语言的需求,模型就能生成相应的代码片段;
此外,模型还可以根据用户的反馈进行自我学习和优化,提高生成代码的质量和可读性。
StarCoder2 模型的优势
相比于上一代 StarCoder 模型,StarCoder2 模型在性能上进行了优化,30 亿参数模型的表现可媲美原 150 亿参数的 StarCoder。
这是因为 StarCoder2 模型采用了一种新的训练技术,称为 CodeBERTa,它可以在不增加参数的情况下,提高模型的泛化能力和编程语言的理解能力。CodeBERTa 技术利用了大量的未标注的代码数据,通过对比学习和掩码语言模型的结合,实现了对代码的预训练和微调。
StarCoder2 模型还具有透明度和成本效益的优势。该系列模型采用 BigCode Open RAIL-M 许可证,用户可以无需支付版税即可访问和使用。
模型的源代码和数据集也都开源在 GitHub 上,方便用户查看和修改。模型还支持在英伟达的 GPU 平台上运行,可以节省计算资源和时间。
总之,如果你对 StarCoder2 模型感兴趣,你可以从 Hugging Face 的网站下载模型,或者从 BigCode 项目的 GitHub 页面获取源代码和数据集。
模型地址:
https://huggingface.co/bigcode
代码地址:
https://github.com/bigcode-project/starcoder2
论文地址:
https://drive.google.com/file/d/17iGn3c-sYNiLyRSY-A85QOzgzGnGiVI3/view?pli=1
领取专属 10元无门槛券
私享最新 技术干货