首页
学习
活动
专区
圈层
工具
发布

new人工智能研究信息

1、LongLoRA

https://arxiv.org/abs/2309.12307

LoRA是人工智能中有效扩展预训练语言模型(llm)上下文大小的一种方法。LongLoRA通过在训练期间利用稀疏的局部注意力和在推理期间利用密集的全局注意力,允许进行经济有效的微调并保持性能。LongLoRA在各种任务上展示了令人印象深刻的结果,并在llm中支持多达10万个令牌的上下文扩展。

2、Chain-of-Verification

https://arxiv.org/abs/2309.11495

Chain-of-Verification减少了大型语言模型中的幻觉。CoVe可以有效地减少基于语言模型的系统中的幻觉。通过生成、验证和传递响应的系统过程,CoVe已经证明了它在各种任务(包括问答和文本生成)中减少幻觉。

3、Fast Feedforward Networks

快速前馈网络(FFF)是一种以较小的神经网络作为叶子的二叉树结构,与mix -of- experts网络相比,它的性能要快得多。尽管还有一些问题,比如树过深而导致的碎片化,但是FFF网络在需要快速推理和小细节编码的场景中具有很大的前景。

4、Contrastive Decoding

https://arxiv.org/abs/2309.09117

对比解码提高了大型语言模型的推理能力。LLM中的对比解码是一种强大的推理方法。它超越了贪婪解码和核采样,在HellaSwag和GSM8K等基准测试中表现出色。

5、CulturaX

https://arxiv.org/abs/2309.09400

CulturaX是一个精心策划的用于167种语言的大型语言模型的多语言数据集,包含6T标记,专为167种语言的语言模型而设计。数据集经过彻底的清理阶段,以确保人工智能语言模型的高质量训练数据。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OxXJf935ienh-kUIptlTzyLg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券