来自某机构的新语言模型
新的 Gemma2 模型以 9B 和 27B 两种参数规模发布。它们经过了过度的分词训练——至少从 Llama3 开始这似乎已成为一种趋势。此外,它们是否也经过了更大规模 Gemini 模型的蒸馏?大家都在讨论交替的全局/局部注意力层,这一点在 Character.AI 的博文中也有提及(见下文)。
博文 | 论文 | 在 Replicate 上试用
语言模型排行榜更新
Huggingface 更新了之前的元基准测试,加入了更难的评估项。他们选择了高质量、可靠、未广泛污染数据集,并能衡量模型有趣能力的评估指标。目前的排名通过了初步验证:Qwen 72B 相比 Meta LLama 3 保持明显领先优势,而后者又略优于 Mixtral 8x22B,依此类推。
博文 | 排行榜
如何真正优化 AI 推理
Character.AI 每秒处理 2 万次推理查询。这是一份简洁但具体的指南,介绍了他们为此所使用的优化技术——包括前文提到的混合注意力机制,以及针对每轮对话中必须包含的长篇重复聊天历史的状态缓存。
博文
如何从 Stable Diffusion 3 获得最佳结果
Stable Diffusion 3 已经发布数周。内部 AI 实验者 @fofrAI 已经取得了不错的结果,但这并不总是容易的。通过博文学习如何选择正确的版本、编写高质量的提示词以及设置合适的参数。
博文
以上便是本周的全部内容。如有遗漏,请回复告知。下周再做致歉。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。