暂无搜索历史
LoRA模块化架构让研究人员们开始探索组合多个LoRA方法,旨在实现学习特征的联合生成,增强各种任务的性能。当前线性算术组合和参数调优组合都存在一定的缺陷,为了...
要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。
大语言模型非常擅长上下文学习(ICL),随着大模型上下文窗口的不断扩展,它可以让我们使用数百或者上千个样例,然而,当前多样本上下文学习(many-shot IC...
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从以往的经验来看,它们在预训...
如何有效融合图像、文本等多模态信息以提高多模态知识图谱(MMKG)完整性,一直是多模态知识图谱的研究热点。当前MMKG补全方法往往忽略了多模态数据中的细粒度语义...
在文本生成方面,大语言模型表现出了超强的性能。然而,随着时间的推移,大模型会面临知识更新问题,特别是对于发生在模型知识截止日期之后的事件。例如:当前ChatGP...
紧跟技术发展趋势,快速了解NLP领域最新动态。好久没有给大家梳理文章了,今天作者结合最近一周的研究动态,梳理了8篇有关大模型(LLMs)的最新研究进展,其中涉及...
传统的语言模型预训练方法,对每个Token都是采用下一个Token的预测损失,然而对于预训练模型来说,并非所有Token都是同等重要。为此,本文作者进行了深入的...
为解决大模型(LLMs)在处理超长输入序列时遇到的内存限制问题,本文作者提出了一种新型架构:Infini-Transformer,它可以在有限内存条件下,让基于...
Meta 正在不遗余力地想要在生成式 AI 领域赶上竞争对手,目标是投入数十亿美元用于 AI 研究。这些巨资一部分用于招募 AI 研究员。但更大的一部分用于开发...
为了提升开源大模型(LLMs)的复杂推理能力,缩小与专有模型之间的差距。本文作者构建了一个大规模、高质量对齐数据集ULTRAINTERACT,它包含了多样化的指...
本文主要介绍大模型(LLMs)如何助力汽车自动驾驶,简单来说,作者首先带大家了解大模型的工作模式,然后介绍了自动驾驶大模型的3大应用场景,最后指出自动驾驶大模型...
在人类的社交活动中,为了更有效地在工作和生活中与他人沟通,需要一定的社交技能,比如解决冲突。
当前,绝大多数大模型(LLMs)基本上都是以英文语料库训练得到的,然后经过SFT来匹配不同的语种。然而,今天给大家分享的这篇文章旨在从头开始训练中文大模型,在训...
文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。
本研究展示了一种新型Transformer的语言模型:Mixture-of-Depths Transformer,该模型能够动态地分配计算资源到输入序列的特定位...
大模型由无数的神经元组成,不同的神经元有不同的功能,然而研究发现,并非不是所有的神经元在不同数据集上都是活跃的,而且神经元的稀疏性与特定任务能力呈正相关。为此,...
随着LLMs在自主Agent领域的应用日益增多,如何高效管理和调度这些Agent成为一项重要挑战。为此,「本文创新性的提出一个基于大模型的操作系统架构:AIOS...
近年来,多模态大型语言模型(MLLM)在多个领域上取得了成功,但现有MLLM主要是基于Transformer训练得到,计算效率较低。为此,本文作者提出了Cobr...
当前开源社区中有许多的大模型,为了能够将其适配至不同应用场景,基本上都需要精心的调整模型参数。为了能够实现对大模型的高效微调,本文作者提出了一个统一的大模型微调...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址