首页
学习
活动
专区
工具
TVP
发布

自然语言处理(NLP)论文速递

专栏成员
335
文章
311897
阅读量
60
订阅数
Meta| 提出上下文位置编码:CoPE,解决当前模型「普遍存在的问题」,含GPT-4o!
Attention机制是大模型的核心组件,但该机制并不包含顺序信息,需要进行位置编码。当前位置编码(PE)主要是通过Token计数来定位,这限制了其泛化能力。例如无法针对特定的句子、名词进行定位。以下是在Kimi上测试结果,明显统计错误!
ShuYini
2024-05-31
3820
恐怖如斯!GSU | 提出VB-LoRA,仅需LoRA参数的0.4%,就超越了LoRA微调效果
随着大模型应用的不断推广,面对不同应用场景模型的定制化需求也不断增涨。但参数高效微调 (PEFT) 方法,比如LoRA及其变体会产生大量的参数存储和传输成本。为此,本文提出了一种超级参数高效微调方法:VB-LoRA,该方法采用“分而共享(divide-and-share)”范式,通过向量库进行全局参数共享,在保证模型性能的同时,实现了极高的参数效率。在对 Llama2-13B 模型进行微调时,VB-LoRA 仅使用了 LoRA 存储参数的 0.4%就超过了LoRA微调效果,可见实力强悍。
ShuYini
2024-05-30
1130
哈工大 | 提出共享Attention框架:SAPT,提升LLM持续学习性能
在大模型实际部署落地的过程中,如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战,分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时,会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。【作者主页:https://circle-hit.github.io】
ShuYini
2024-05-30
1050
牛叉!UConn | 提出代码生成大模型:AutoCoder,性能超越GPT-4o!
大模型训练需要高质量数据集,这对于代码生成任务来说尤其重要。为此本文提出了一种新型大规模代码指令数据集标注方法:AIEV-INSTRUCT,得到了一个高质量代码指令数据集:AutoCoder-AIEV-Instruct,基于该数据集,作者训练了代码生成大模型:AutoCoder,该模型在HE基准测试集上的pass@1指标超过了GPT-4 Turbo和GPT-4o,并且还提供了一个可自动安装外部依赖包的代码解释器。
ShuYini
2024-05-29
2180
开源金融领域AI Agent平台:FinRobot,利用多源LLMs进行高级金融分析、市场预测
在当今快速发展的金融领域,数据分析和决策制定的重要性日益凸显。随着人工智能技术的不断进步,尤其是大模型(LLMs)的出现,金融专业人士和普通用户都面临着一个共同的挑战:如何有效地利用这些先进的技术来提高分析的准确性和决策的质量。
ShuYini
2024-05-28
2260
细数:大模型评估基准的「七宗罪」
在 CV 领域,研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。
ShuYini
2024-05-28
1390
麻省理工(MIT) | 提出跨层Attention,减少Transformer大模型键值(KV)缓存,加快LLM推理!
键值 (KV) 缓存能够显著提升Transformer大模型的解码速度。但是当面对长序列的时候,键值 (KV) 缓存需要大量的内存资源。当前减少键值 (KV) 缓存的两个主要方法分别为:Multi-Query Attention(MQA)和Grouped-Query Attention (GQA)。这两种方法主要是修改了Attention块,使得多头请求头共享单个KV头,从而大大减少了不同KV的数量。
ShuYini
2024-05-28
1420
RU | 提出手语生成大模型:SignLLM,支持8种手语生成,且均达到SOTA!
手语对于听障人士的交流至关重要。然而,手语数据的获取和处理非常复杂,这限制了手语生成模型的发展。为推动手语生成领域的发展,本文作者提出了一个多语种手语数据集Prompt2Sign,并以此训练了手语生成大模型:SignLLM,该模型可并行生成多种手语,同时理解复杂自然语言输入。实验结果表明,SignLLM在8种手语的SLP任务上达到了最先进的性能,展示了其在多语种手语生成上的强大实力。
ShuYini
2024-05-28
2790
学的少,忘的少!UC | LoRA最新研究:总结LoRA最佳实践,实现LLMs高效微调!
本文深入探讨了当前主流大模型高效微调方法——低秩适应(LoRA)。在代码编程、数学推理两个领域,对比了LoRA和全微调在不同数据规模下的性能。结果表明:LoRA在大多数情况下性能不如全微调,但作为一种正则化手段,LoRA能够保证在源领域上的性能(遗忘问题),并减少对新任务的学习成本。最后作者还给出了使用LoRA的最佳实践,来方便大家更有效地利用LoRA进行大模型微调。
ShuYini
2024-05-28
830
全面开源,免费商用!腾讯| 发布混元文生图大模型,采用业内首个中文原生DiT架构!
5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
ShuYini
2024-05-17
6470
剑桥 | 提出Hypernetwork,解耦LLMs分词器(Tokenizer),提高LLMs跨语言处理性能!
大模型(LLM)主要依赖于分词器(Tokenizer )将文本转换为Tokens,目前主流开源大模型基本上都是基于英文数据集训练得到的,然而,此类模型当处理其它语言时效率会降低。为此,为了能够将原始 LM 分词器替换为任意分词器,而不会降低性能,本文作者定义了一个新挑战:零样本分词器迁移(ZeTT,Zero-Shot Tokenizer Transfer),训练了一个适配各种模型的超网络(Hypernetwork),解耦LLM分词器(Tokenizer),增强LLM跨语言处理性,实验表明:在跨语言和编码任务上可媲美原始模型。
ShuYini
2024-05-17
1750
数据污染迫在眉睫!GSM8k测试基准 将不再可靠,Mistral、Phi等系列模型出现过拟合!
大模型数学推理评测基本上都绕不开GSM8k测试基准,当前很多大模型在该数据集上都展现出较强的性能。然而,本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似的问题,而不是模型真正具备推理能力。
ShuYini
2024-05-17
1250
斯坦福 | 开源全新AI加速框架:百行代码,让H100提速30%!
AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。
ShuYini
2024-05-17
820
下周!OpenAI将有大动作,奥特曼剧透:Not GPT-5,Not 搜索引擎
OpenAI 有了新动向!今日凌晨 OpenAI 官宣,将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息,并表示「不是 gpt-5,不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!我感觉这就像魔法一样。」
ShuYini
2024-05-17
670
ByteDance| 将MoE 整合至多模态LLMs,降低了推理成本,多模态性能达到SOTA!
目前多模态LLMs主要通过增加文图对( text-image)数据和增强LLMs来提升性能,然而,此类方法计算成本较高,同时忽略了从视觉方面提升模型能力的重要性。
ShuYini
2024-05-11
1250
上交| 提出一致性大模型:CLLMs,提升3倍生成速度,降低内存成本!
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLLMs),能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。
ShuYini
2024-05-11
1920
ICLR 2024| 用巧妙的「传送」技巧,让神经网络的训练更加高效
众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一发现,传送算法(teleportation)被设计出来,它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力,但其背后的确切机制尚不清楚。
ShuYini
2024-05-10
690
中山&港大| 提出DQ-LoRe框架,自动选择上下文示例,为LLMs复杂推理开辟新道路!
大模型(LLMs)在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现,人们提出思维链”(Chain-of-Thought,CoT)的方法,利用中间推理步骤来辅助模型生成。那么,如何有效地选择优秀示例来提升LLMs上下文学习能力呢?
ShuYini
2024-05-10
1590
LSTM依然能打!最新xLSTM架构:怒超先进Transformer和状态空间模型(SSM)
LSTM( Long Short-Term Memory)最早源于20世纪90年代,为人工智能的发展做出了重要贡献。然而,随着Transformer技术的出现,LSTM逐渐淡出了人们的视野。那么,如果将 LSTM 扩展到数十亿个参数,利用LLM技术打破LSTM的局限性,LSTM在语言建模方面还能走多远呢?
ShuYini
2024-05-09
5440
7262篇提交,ICLR 2024爆火,两篇国内论文获杰出论文提名
ICLR 全称为国际学习表征会议(International Conference on Learning Representations),今年举办的是第十二届,于 5 月 7 日至 11 日在奥地利维也纳展览会议中心举办。
ShuYini
2024-05-09
1120
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档