深度学习自然语言处理

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

仓库和技术报告地址：https://github.com/deepseek-ai/DeepSeek-V2
来自：包包算法笔记
EMNLP2024投稿群建立！

幻方发布全球最强MOE大模型！ DeepSeek-V2

深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。沿袭了一贯的作风，Deepseek对模型（基座和对话对齐版本）进行了完全的mit协议开源，可以商用。对于算力不是那么充足的开发者，官方提供了API调用的方案，费用更是达到了全场最低！

Deepseek-V2技术报告解读！全网最细！

今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队，高研院丛天硕老师，和香港科技大学(广州)何新磊老师联合完成的综述《Jailbreak Attacks and Defenses Against Large Language Models: A Survey》。本文聚焦于大模型安全领域，探讨了目前大模型所面临的“越狱攻击”(Jailbreak)问题。

大语言模型越狱攻击综述

把时间推回到250万年前，旧石器时代见证了人类从简单工具的使用者到复杂技术创造者的转变。我们的祖先南方古猿、直立人等，逐步发展出更高级的工具，如手斧和刮刀，以适应狩猎和生活的需求。大约4万年前，现代人类——智人——的出现标志着技术和文化的飞跃，工具进一步精致化如骨针、鱼钩，艺术创作如洞穴壁画和雕塑也随之兴起。这一时期，火的利用、语言和社会结构的形成，为人类文明的后续发展奠定了坚实的基础。

解决问题而非制造问题！GLM-4-AllTools API革新大模型使用体验

以Qwen2作为基座大模型，通过指令微调的方式做高精度的命名实体识别（NER），是学习入门LLM微调、建立大模型认知的非常好的任务。

Qwen2大模型微调入门实战-命名实体识别（NER）任务

这篇文章的标题是《CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs》，由普林斯顿大学、威斯康星大学麦迪逊分校和香港大学的研究人员撰写。文章主要关注多模态大型语言模型（MLLMs）在理解和分析图表方面的能力和局限。

陈丹琦团队发布CharXiv数据集：重新定义图表理解的评估标准

这篇文章的标题是《Following Length Constraints in Instructions》，作者是Weizhe Yuan、Ilia Kulikov、Ping Yu、Kyunghyun Cho、Sainbayar Sukhbaatar、Jason Weston和Jing Xu，来自Meta FAIR和纽约大学。文章主要探讨了在人工智能领域，特别是在指令遵循模型中，如何处理和优化输出响应的长度限制问题。

优化AI输出：长度约束下的指令遵循模型研究

这篇文章的标题是《Unified Active Retrieval for Retrieval Augmented Generation》，作者是Qinyuan Cheng等人，来自复旦大学和上海人工智能实验室。文章主要研究了在检索增强型生成（Retrieval-Augmented Generation, RAG）中，如何智能地决定何时使用检索来增强大型语言模型（LLMs）的输出。

复旦+上海AI Lab提出统一主动检索RAG，减少延迟，提升响应

这篇论文提出了一个名为ENVISIONS的环境引导的神经符号自训练框架，旨在解决以下两个问题：

ENVISIONS：一种无需人类标注的LLM自训练框架

知乎：真中合欢
链接：https://www.zhihu.com/question/627258986/answer/3262812950

现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

这篇论文试图解决的问题是如何自动构建高质量的训练数据，以增强大型语言模型（LLMs）遵循复杂自然语言指令的能力。具体来说，论文指出了以下几个关键问题：

阿里千问团队提出AutoIF，让LLMs学会自我指导，简单有效，性能显著

这篇文章介绍了一个名为Q的框架，旨在改善大型语言模型（LLMs）在多步推理任务中的性能。作者指出，尽管LLMs在许多自然语言任务上表现出色，但在执行多步推理时，由于其自回归生成过程，容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题，引入了一个通用、多功能且灵活的框架，通过有意识的规划引导LLMs的解码过程。

Q*框架：通过有意识引导无需微调即可提升LLMs多步推理能力

标题：Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?
录取：ACL2024 Main
论文链接：https://arxiv.org/abs/2406.09072
代码链接：https://github.com/zhaochen0110/Cotempqa
单位：苏州大学、上海人工智能实验室

ACL2024 | AI的时空穿越记：大型语言模型共时推理的奇幻之旅！

文章旨在解决扩散模型（diffusion models）在生成高质量图像方面表现出色，但在语言建模（language modeling）任务中与自回归（autoregressive, AR）方法存在显著性能差距的问题。作者指出，尽管扩散模型在生成离散数据（如文本、生物序列和图）方面具有潜力，但在语言建模的性能上，与AR方法相比，先前工作的扩散模型报告了较大的对数似然差距。

突破性进展：简单有效的新型Masked扩散模型革新语言生成，与自回归模型媲美

文章探讨了掩码语言模型（MLMs，例如BERT和DeBERTa）在上下文学习（in-context learning）方面的能力，挑战了普遍观点，即这种能力在这些模型中不会“显现”。作者意图证明，即使没有额外的训练，MLMs也能够展现出与著名的GPT-3相当的生成能力。

BERT的逆袭：揭秘如何在无需额外训练下释放语言模型的生成能力

在人工智能飞速发展的今天，大模型的感知能力已经达到了令人惊叹的水平。但是，它们真的能够像人类一样，洞悉图片中的深层含义吗？为了探讨多模型大模型与人类的差距，来自中科院深圳先进院，M-A-P，华中科技大学，零一万物，滑铁卢大学等多家机构联合提出了首个用于评估多模态大模型（MLLMs）图像隐喻理解能力的综合性基准测试II-Bench。

大模型能看懂图片的弦外之音吗？多模态大模型新基准II-Bench

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因，即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后，引入了一个全面的分类法，将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外，本文还对关键子领域的代表性方法进行了对比实验，以及分析并给出一定的见解。最后，对相关工作进行总结，并对未来的研究方向进行了讨论。

3万字详细解析清华大学最新综述工作：大模型高效推理综述

这篇论文介绍了一种名为YOCO（You Only Cache Once）的新型解码器-解码器架构，旨在提高大型语言模型的推理效率和性能。

YOCO：全新Decoder-Decoder架构，内容减少6倍，推理速度提升30倍

我们知道，Meta 推出的 Llama 3、Mistral AI 推出的 Mistral 和 Mixtral 模型以及 AI21 实验室推出的 Jamba 等开源大语言模型已经成为 OpenAI 的竞争对手。

仅用250美元，Hugging Face技术主管手把手教你微调Llama 3

陈丹琦团队提出了一种名为 Lory 的新型混合专家（Mixture-of-Experts，简称 MoE）模型，专门用于自回归语言模型的预训练。以下是对文章内容的详细解读。

陈丹琦团队提出最新MoE架构Lory

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了深度学习自然语言处理专栏，为你提供了深度学习自然语言处理的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐