腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习自然语言处理

专栏作者

1009

文章

1167803

阅读量

160

订阅数

最强MOE开源：Mixtral 8x22B 发布！

数学效率性能开源模型

权重地址：https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1

2024-04-19

670

Meta无限长文本大模型来了：参数仅7B，已开源

模型性能开源 meta 架构

Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从以往的经验来看，它们在预训练效率和下游任务准确性方面表现不佳。

2024-04-19

460

《跨语言大模型》最新综述

数据网站开源工作模型

跨语言大模型（MLLMs）能够利用强大的大型语言模型处理和回应多种语言的查询，在多语言自然语言处理任务中取得了显著的成功。尽管取得了这些突破，但仍然缺乏一份全面的调查总结该领域现有方法和最新发展。因此，在本文中，我们进行了深入的综述，并提供了一个统一的视角，总结了多语言大型语言模型领域的最新进展和新兴趋势。本文的贡献可以总结如下：（1）首次综述：据我们所知，我们首次按照多语言对齐的方式对MLLMs研究领域进行了深入综述；（2）新分类法：我们提供了一个新的统一视角，总结了MLLMs的当前进展；（3）前沿与挑战：我们重点介绍了几个新兴领域并讨论了相应的挑战；（4）丰富资源：我们收集了丰富的开源资源，包括相关论文、数据语料库和排行榜。我们希望我们的工作能够推动MLLMs领域的突破性研究。

2024-04-19

380

对谷歌最新提出的Infini-transformer模型进行代码复现

开源论文模型数据优化

这篇文章主要内容为我个人对谷歌最新提出的Infini-transformer模型的个人见解，复现代码以及训练细节。

2024-04-18

630

每日论文速递 | DeepMind提出SAFE，用LLM Agent作为事实评估器

性能 LLM agent 论文模型

摘要：大语言模型（LLM）在回答开放式话题的事实搜索提示时，经常会生成包含事实错误的内容。为了对模型在开放域中的长式事实性进行基准测试，我们首先使用 GPT-4 生成了 LongFact，这是一个由跨越 38 个主题的数千个问题组成的提示集。然后，我们提出可以通过一种我们称之为 "搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，SAFE）的方法，将 LLM 代理用作长式事实性的自动评估器。SAFE 利用 LLM 将长式回复分解为一组单独的事实，并通过一个多步骤推理过程来评估每个事实的准确性，该过程包括向谷歌搜索发送搜索查询，并确定搜索结果是否支持某个事实。此外，我们还建议将 F1 分数扩展为长表事实性的综合指标。为此，我们平衡了回复中支持事实的百分比（精确度）和所提供事实相对于代表用户首选回复长度的超参数的百分比（召回率）。根据经验，我们证明了 LLM 代理可以实现超人的评级性能--在一组约 16k 的单个事实上，SAFE 与众包人类注释者的一致率为 72%，而在 100 个分歧案例的随机子集上，SAFE 的胜率为 76%。同时，SAFE 的成本比人类注释者低 20 多倍。我们还在 LongFact 上对四个模型系列（Gemini、GPT、Claude 和 PaLM-2）的 13 个语言模型进行了基准测试，发现较大的语言模型通常能获得更好的长格式事实性。LongFact、SAFE 和所有实验代码开源。

2024-04-11

990

每日论文速递 | sDPO-不要一次就把对齐数据用完

论文模型数据性能优化

A：这篇论文试图解决的问题是如何在大型语言模型（LLMs）的训练过程中，更有效地与人类偏好对齐。具体来说，它提出了一种名为逐步直接偏好优化（stepwise Direct Preference Optimization，简称sDPO）的方法，用于改进现有的直接偏好优化（DPO）方法。这个方法通过分步使用可用的偏好数据集，而不是一次性使用全部数据，从而在DPO训练框架中使用更精确对齐的参考模型。通过这种方法，论文展示了如何训练出一个性能更佳的最终模型，甚至在某些情况下，其性能超过了参数更多的其他流行的大型语言模型。

2024-04-11

1340

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

gpt 漏洞论文模型安全

刚刚，人工智能初创公司 Anthropic 宣布了一种「越狱」技术（Many-shot Jailbreaking）—— 这种技术可以用来逃避大型语言模型（LLM）开发人员设置的安全护栏。

2024-04-11

1350

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

强化学习框架论文模型性能

摘要：尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为，但它往往会导致表面上的一致，优先考虑风格上的变化，而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战，我们提出了一个新颖的框架：从反思反馈中强化学习Reinforcement Learning from Reflective Feedback （RLRF），它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应，然后通过 RL 算法对模型进行微调，同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明，RLRF 的功效和变革潜力超出了表面的调整。

2024-04-11

1480

每日论文速递 | 一次编码平行解码：高效Transformer解码

编码论文模型效率性能

摘要：基于Transformer的 NLP 模型功能强大，但计算成本较高，限制了应用场景。经过微调的编码器-解码器模型在专业领域很受欢迎，其性能优于 GPT-4 等大型通用解码器模型。我们为编码器-解码器模型引入了一种新的配置，它能提高结构化输出和问题解答任务的效率，在这些任务中，一个输入需要多个输出。我们的方法，即提示中解码器（PiD），对输入进行一次编码，对输出进行并行解码，通过避免重复输入编码来提高训练和推理效率，从而减少解码器的内存占用。在对话状态跟踪、总结和问题解答任务方面，我们实现了与子任务数量大致成比例的计算量减少，与性能相当或更好的一流模型相比，速度提高了 4.6 倍。

2024-04-11

1090

每日论文速递 | NAACL'24：自生成翻译记忆缓解翻译持续学习遗忘问题

系统性能翻译论文模型

摘要：现代神经机器翻译系统在几种不同的语言中表现出强劲的性能，并在不断改进。然而，它们的持续学习能力仍然受到灾难性遗忘问题的严重限制。在这项工作中，我们利用encoder-decoder transformer的一个关键特性，即它们的生成能力，提出了一种持续学习神经机器翻译系统的新方法。我们展示了如何利用重放记忆，将模型本身作为并行句子的生成器，从而有效地学习由不同语言组成的经验流。我们通过实证证明，我们的方法可以抵消灾难性遗忘，而无需明确记忆训练数据。代码将在发表后公开。

2024-04-11

770

首个符号大模型！Symbol- LLM：探索自然语言与符号之间的能力平衡

LLM 测试工作模型数据

当前，大型语言模型 (Large Language Model, LLM) 大多强调以自然语言 (Natural Language, NL)为媒介进行交互、推理以及反馈修正。然而，LLM对符号语言的处理能力如何？如何增强LLM的符号交互能力？ Symbol-LLM这项目工作给出了答案，并开源了涵盖超20种符号类型的训练数据集，以及统一符号的开源基座大模型 (7B/13B)

2024-04-11

1200

LA-Light：大语言模型开始接管城市交通了

城市交通框架模型设计数据

LA-Light框架将大型语言模型用于改善城市交通管理，城市交通管理的难度在于这是一个动态而复杂决策机制。

2024-04-11

1030

每日论文速递 | InsCL: Data-efficient 持续指令学习

论文模型数据性能 data

摘要：Instruction tuning 可有效优化大型语言模型（LLM），使其适用于下游任务。由于实际应用中的环境不断变化，LLMs 需要在不发生灾难性遗忘的情况下，针对特定任务进行持续适应。考虑到沉重的计算成本，基于重放的持续学习（CL）方法是解决遗忘问题的最简单、最广泛的 LLM 方法。然而，传统的基于重放的方法不能充分利用指令来定制重放策略。在这项工作中，我们提出了一种名为基于指令的持续学习（InsCL）的新模式。InsCL 基于任务相似性动态重放之前的数据，任务相似性由带有指令的 Wasserstein Distance 计算得出。此外，我们还进一步引入了指令信息度量（InsInfo）来量化指令的复杂性和多样性。根据 InsInfo，InsCL 引导重放过程更倾向于高质量数据。我们在 16 个任务中以不同的训练顺序进行了大量实验，观察到 InsCL 在性能上的持续改进。当所有任务都训练完毕后，InsCL 与随机重放相比实现了 3.0 的相对性能增益，与无重放相比实现了 27.96 的相对性能增益。

2024-04-11

610

每日论文速递 | BiLoRA: 基于双极优化消除LoRA过拟合

论文模型数据优化 LoRa

摘要：低秩适应（LoRA）是在下游任务中通过学习低秩增量矩阵对大规模预训练模型进行微调的一种流行方法。虽然与完全微调方法相比，LoRA 及其变体能有效减少可训练参数的数量，但它们经常会对训练数据进行过拟合，导致测试数据的泛化效果不理想。为了解决这个问题，我们引入了 BiLoRA，这是一种基于双级优化（BLO）的消除过拟合的微调方法。BiLoRA 采用伪奇异值分解来参数化低秩增量矩阵，并将伪奇异向量和伪奇异值的训练分成两个不同的训练数据子集。这种分割嵌入了 BLO 框架的不同层次，降低了对单一数据集过度拟合的风险。BiLoRA 在涵盖自然语言理解和生成任务的十个数据集上进行了测试，并应用于各种著名的大型预训练模型，在可训练参数数量相似的情况下，BiLoRA 明显优于 LoRA 方法和其他微调方法。

2024-04-11

2040

每日论文速递 | [COLING'24] 探索数据多样性对LLM对齐的影响

论文模型数据性能 LLM

摘要：与人类偏好对齐可以防止大型语言模型（LLMs）产生误导性或有毒内容，但同时需要高成本的人类反馈。假设人工标注的资源有限，可以考虑两种不同的分配方式：标注更多样化的 "指令"（PROMPTS）或更多样化的 "回应"（RESPONSES）。然而，这两种方式的影响还没有直接的比较。在这项工作中，我们首先根据样本数量控制双方的多样性，以便进行微调，这可以直接反映出它们的影响。我们发现，对于人类对齐而言，更多的response和更少的提示反而能更好地触发 LLM。此外，提示语多样性的概念可能比通常以个位数量化的回答更为复杂。因此，我们提出了一种新的提示多样性表述方式，进一步揭示了微调后 LLM 的最终性能与提示多样性呈线性相关。我们还将其用于数据增强，并通过实验展示其对不同算法的影响。

2024-04-11

1330

每日论文速递 | ReAct Meets ActRe: Agent规划自主解释

react agent 代理框架论文

摘要：语言代理通过对基础模型进行推理，展示了自主决策能力。最近，人们开始利用多步骤推理和行动轨迹作为训练数据，努力训练语言代理以提高其性能。然而，收集这些轨迹仍然需要大量人力，要么需要人工注释，要么需要实现各种提示框架。在这项工作中，我们提出了 A

2024-04-11

1350

6行代码，1行命令！轻松实现多模态（视觉）模型离线推理&在线服务

配置服务接口模型内存

早在去年年底，LMDeploy 已经悄悄地支持了多模态（视觉）模型（下文简称 VLM）推理，只不过它静静地躺在仓库的 examples/vl 角落里，未曾与大家正式照面。

2024-04-11

1030

自然语言生成中的解码方法汇总

token 函数基础模型搜索

原文链接：https://zhuanlan.zhihu.com/p/688442704

2024-04-11

680

每日论文速递 | UCB提出RAFT-检索增强微调训练方法

性能 raft 论文模型数据

摘要：在大型文本数据集上预训练大型语言模型（LLM）现已成为一种标准模式。在许多下游应用中使用这些 LLM 时，通常会通过基于 RAG 的提示或微调将新知识（如时间关键新闻或私人领域知识）添加到预训练模型中。然而，模型获取此类新知识的最佳方法仍是一个未决问题。在本文中，我们提出了检索增强微调法Retrieval Augmented FineTuning（RAFT），这是一种训练方法，可提高模型在 "开卷 "领域设置中回答问题的能力。在 RAFT 中，给定一个问题和一组检索到的文档，我们训练模型忽略那些无助于回答问题的文档，我们称之为干扰文档。RAFT 通过逐字引用相关文档中有助于回答问题的正确序列来实现这一点。这与 RAFT 的思维链式响应相结合，有助于提高模型的推理能力。在特定领域的 RAG 中，RAFT 持续提高了模型在 PubMed、HotpotQA 和 Gorilla 数据集上的性能，为改进预训练 LLM 的域内 RAG 提供了一个后训练配方。RAFT 的代码和演示已开源。

2024-04-11

1960

每日论文速递 | 【COLING'24】通过一致性对齐提高LLM回答鲁棒性

优化 LLM 框架论文模型

摘要：大型语言模型（LLM）在遵循用户指令并生成有用的响应方面取得了巨大成功。然而，它们的鲁棒性还远未达到最佳状态，因为它们可能会因为口头指令的细微变化而生成明显不一致的响应。最近有文献探讨了这一不一致性问题，强调了持续改进应答生成鲁棒性的重要性。然而，目前仍缺乏系统的分析和解决方案。在本文中，我们对不一致性问题进行了定量定义，并提出了一个由指令增强监督微调和一致性对齐训练组成的两阶段训练框架。第一阶段通过类似指令增强帮助模型泛化后续指令。在第二阶段，我们通过区分类似反应中的细微差别来提高多样性，并帮助模型理解哪些反应更符合人类的期望。训练过程由第一阶段训练好的模型推断出的自我奖励完成，无需参考外部的人类偏好资源。我们在最近公开发布的 LLM 上就指令遵循任务进行了大量实验，证明了我们的训练框架的有效性。

2024-04-11

1150

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态