自然语言处理(NLP)论文速递-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

自然语言处理(NLP)论文速递

专栏成员

335

文章

311897

阅读量

60

订阅数

Meta| 提出上下文位置编码：CoPE，解决当前模型「普遍存在的问题」，含GPT-4o！

gpt meta 编码模型性能

Attention机制是大模型的核心组件，但该机制并不包含顺序信息，需要进行位置编码。当前位置编码（PE）主要是通过Token计数来定位，这限制了其泛化能力。例如无法针对特定的句子、名词进行定位。以下是在Kimi上测试结果，明显统计错误！

2024-05-31

3820

恐怖如斯！GSU | 提出VB-LoRA，仅需LoRA参数的0.4%，就超越了LoRA微调效果

存储基础模型性能 LoRa

随着大模型应用的不断推广，面对不同应用场景模型的定制化需求也不断增涨。但参数高效微调 (PEFT) 方法，比如LoRA及其变体会产生大量的参数存储和传输成本。为此，本文提出了一种超级参数高效微调方法：VB-LoRA，该方法采用“分而共享（divide-and-share）”范式，通过向量库进行全局参数共享，在保证模型性能的同时，实现了极高的参数效率。在对 Llama2-13B 模型进行微调时，VB-LoRA 仅使用了 LoRA 存储参数的 0.4%就超过了LoRA微调效果，可见实力强悍。

2024-05-30

1130

哈工大 | 提出共享Attention框架：SAPT，提升LLM持续学习性能

模型性能 LLM 迁移框架

在大模型实际部署落地的过程中，如何赋予大模型持续学习的能力是一个至关重要的挑战。这使其能够动态适应新的任务并不断获得新的知识。大模型的持续学习主要面临两个重大挑战，分别是灾难性遗忘和知识迁移。灾难性遗忘是指模型在学习新任务时，会忘记其已掌握的旧任务。知识迁移则涉及到如何在学习新任务时有效地应用旧任务的知识来提升新任务学习的效果。【作者主页：https://circle-hit.github.io】

2024-05-30

1050

牛叉！UConn | 提出代码生成大模型：AutoCoder，性能超越GPT-4o！

数据性能开源 gpt 模型

大模型训练需要高质量数据集，这对于代码生成任务来说尤其重要。为此本文提出了一种新型大规模代码指令数据集标注方法：AIEV-INSTRUCT，得到了一个高质量代码指令数据集：AutoCoder-AIEV-Instruct，基于该数据集，作者训练了代码生成大模型：AutoCoder，该模型在HE基准测试集上的pass@1指标超过了GPT-4 Turbo和GPT-4o，并且还提供了一个可自动安装外部依赖包的代码解释器。

2024-05-29

2180

开源金融领域AI Agent平台：FinRobot，利用多源LLMs进行高级金融分析、市场预测

金融开源 agent 模型算法

在当今快速发展的金融领域，数据分析和决策制定的重要性日益凸显。随着人工智能技术的不断进步，尤其是大模型（LLMs）的出现，金融专业人士和普通用户都面临着一个共同的挑战：如何有效地利用这些先进的技术来提高分析的准确性和决策的质量。

2024-05-28

2260

细数：大模型评估基准的「七宗罪」

测试工具论文模型性能

在 CV 领域，研究者一直把李飞飞等人创建的 ImageNet 奉为模型在下游视觉任务中能力的试金石。

2024-05-28

1390

麻省理工(MIT) | 提出跨层Attention，减少Transformer大模型键值(KV)缓存，加快LLM推理！

内存 LLM 缓存架构模型

键值 (KV) 缓存能够显著提升Transformer大模型的解码速度。但是当面对长序列的时候，键值 (KV) 缓存需要大量的内存资源。当前减少键值 (KV) 缓存的两个主要方法分别为：Multi-Query Attention(MQA)和Grouped-Query Attention (GQA)。这两种方法主要是修改了Attention块，使得多头请求头共享单个KV头，从而大大减少了不同KV的数量。

2024-05-28

1420

RU | 提出手语生成大模型：SignLLM，支持8种手语生成，且均达到SOTA！

工具模型视频数据性能

手语对于听障人士的交流至关重要。然而，手语数据的获取和处理非常复杂，这限制了手语生成模型的发展。为推动手语生成领域的发展，本文作者提出了一个多语种手语数据集Prompt2Sign，并以此训练了手语生成大模型：SignLLM，该模型可并行生成多种手语，同时理解复杂自然语言输入。实验结果表明，SignLLM在8种手语的SLP任务上达到了最先进的性能，展示了其在多语种手语生成上的强大实力。

2024-05-28

2790

学的少，忘的少！UC | LoRA最新研究：总结LoRA最佳实践，实现LLMs高效微调！

LoRa 模型数据数学最佳实践

本文深入探讨了当前主流大模型高效微调方法——低秩适应（LoRA）。在代码编程、数学推理两个领域，对比了LoRA和全微调在不同数据规模下的性能。结果表明：LoRA在大多数情况下性能不如全微调，但作为一种正则化手段，LoRA能够保证在源领域上的性能（遗忘问题），并减少对新任务的学习成本。最后作者还给出了使用LoRA的最佳实践，来方便大家更有效地利用LoRA进行大模型微调。

2024-05-28

830

全面开源，免费商用！腾讯| 发布混元文生图大模型，采用业内首个中文原生DiT架构！

算法腾讯开源架构模型

5 月 14 日，腾讯宣布旗下混元文生图大模型全面升级并全面开源，目前已在 Hugging Face 平台及 GitHub 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

2024-05-17

6470

剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

迁移模型网络性能字符串

大模型（LLM）主要依赖于分词器（Tokenizer ）将文本转换为Tokens，目前主流开源大模型基本上都是基于英文数据集训练得到的，然而，此类模型当处理其它语言时效率会降低。为此，为了能够将原始 LM 分词器替换为任意分词器，而不会降低性能，本文作者定义了一个新挑战：零样本分词器迁移(ZeTT，Zero-Shot Tokenizer Transfer），训练了一个适配各种模型的超网络（Hypernetwork），解耦LLM分词器(Tokenizer)，增强LLM跨语言处理性，实验表明：在跨语言和编码任务上可媲美原始模型。

2024-05-17

1750

数据污染迫在眉睫！GSM8k测试基准将不再可靠，Mistral、Phi等系列模型出现过拟合！

测试模型数据数学性能

大模型数学推理评测基本上都绕不开GSM8k测试基准，当前很多大模型在该数据集上都展现出较强的性能。然而，本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似的问题，而不是模型真正具备推理能力。

2024-05-17

1250

斯坦福 | 开源全新AI加速框架：百行代码，让H100提速30%！

硬件开源框架内存内核

AI 的快速发展，伴随而来的是大计算量。这就自然而然的引出了一个问题：如何减少 AI 对计算的需求，并提高现有 AI 计算效率。

2024-05-17

820

下周！OpenAI将有大动作，奥特曼剧透：Not GPT-5，Not 搜索引擎

openai 苹果音频搜索引擎 gpt

OpenAI 有了新动向！今日凌晨 OpenAI 官宣，将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息，并表示「不是 gpt-5，不是搜索引擎，但我们一直在努力开发一些我们认为人们会喜欢的新东西！我感觉这就像魔法一样。」

2024-05-17

670

ByteDance| 将MoE 整合至多模态LLMs，降低了推理成本，多模态性能达到SOTA！

模型数据性能优化基础

目前多模态LLMs主要通过增加文图对（ text-image）数据和增强LLMs来提升性能，然而，此类方法计算成本较高，同时忽略了从视觉方面提升模型能力的重要性。

2024-05-11

1250

上交| 提出一致性大模型：CLLMs，提升3倍生成速度，降低内存成本！

内存数据效率 token 模型

来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器，并介绍了一种新的并行解码器族，称为一致性大语言模型（CLLMs），能够通过在每个推断步骤中高效地解码一个n -token序列来降低推断延迟。

2024-05-11

1920

ICLR 2024| 用巧妙的「传送」技巧，让神经网络的训练更加高效

技巧模型算法优化神经网络

众多神经网络模型中都会有一个有趣的现象：不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释，即某些参数的变换不会影响损失函数的结果。基于这一发现，传送算法（teleportation）被设计出来，它利用这些对称变换来加速寻找最优参数的过程。尽管传送算法在实践中表现出了加速优化的潜力，但其背后的确切机制尚不清楚。

2024-05-10

690

中山&港大| 提出DQ-LoRe框架，自动选择上下文示例，为LLMs复杂推理开辟新道路！

数据测试框架模型排序

大模型（LLMs）在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现，人们提出思维链”（Chain-of-Thought，CoT）的方法，利用中间推理步骤来辅助模型生成。那么，如何有效地选择优秀示例来提升LLMs上下文学习能力呢？

2024-05-10

1590

LSTM依然能打！最新xLSTM架构：怒超先进Transformer和状态空间模型（SSM）

模型网络 lstm ssm 架构

LSTM（ Long Short-Term Memory）最早源于20世纪90年代，为人工智能的发展做出了重要贡献。然而，随着Transformer技术的出现，LSTM逐渐淡出了人们的视野。那么，如果将 LSTM 扩展到数十亿个参数，利用LLM技术打破LSTM的局限性，LSTM在语言建模方面还能走多远呢？

2024-05-09

5440

7262篇提交，ICLR 2024爆火，两篇国内论文获杰出论文提名

论文模型数据性能机器人

ICLR 全称为国际学习表征会议（International Conference on Learning Representations），今年举办的是第十二届，于 5 月 7 日至 11 日在奥地利维也纳展览会议中心举办。

2024-05-09

1120

点击加载更多

社区活动

AI代码助手快速上手训练营

鹅厂大牛带你玩转AI智能结对编程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态