首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MyShell与MIT联合官宣大语言模型训练研究,LLaMA2级别的大语言模型训练成本仅为10万美金

深潮 TechFlow 消息,Web3 AI 平台 MyShell 与 MIT 计算机科学与人工智能实验室联合发布一种新型的大型语言模型(LLM)JetMoE-8B,根据论文数据,其训练成本不到 10 万美元,该模型的性能超越了Llama2-7B,甚至在基于聊天的任务中胜过了Llama2-13B-Chat,后者拥有数十亿美元的训练资源。JetMoE-8B 非常开放且对学术界友好,它仅使用公共数据集进行训练,并且代码是开源的,不需要专有资源。它可以通过大多数实验室可以承受的有限的计算预算(例如消费级 GPU)进行微调。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OZHweWlOgPADaT4Oz_ImjEdg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券