暂无搜索历史
我们正式发布MiniMax-M1,这是全球首个开源权重的大规模混合注意力推理模型。该模型采用混合专家(Mixture-of-Experts, MoE)架构与闪电...
本研究提出强化预训练 (RPT) 作为大语言模型和强化学习 (RL) 的新型扩展方法。具体而言,我们将下一 token 预测重构为基于 RL 的推理任务,模型通...
我们提出了一种基于自我反思和强化学习的大语言模型性能提升方法。当模型回答错误时,通过激励其生成更高质量的反思内容,我们证明即使无法合成训练数据且仅能获得二元反馈...
本文介绍 Mutarjim,一个专为阿拉伯语-英语双向翻译设计的紧凑型高性能语言模型。尽管当前大规模大语言模型在机器翻译等自然语言处理任务中展现出显著优势,我们...
我们提出 Seed1.5-VL,这是一个旨在提升通用多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 包含一个 5.32 亿参数的视觉编码器和一个...
推理是智能的核心能力,决定了系统在决策、结论推导及跨领域泛化方面的表现。在人工智能领域,随着系统日益需要在开放、不确定和多模态环境中运行,推理成为实现鲁棒性与自...
我们提出了CameraBench,这是一个用于评估和提升摄像机运动理解能力的大规模数据集与基准。CameraBench包含约3,000个多样化的互联网视频,所有...
Kuwain 1.5B:通过语言注入(Language Injection)构建的阿拉伯语小型语言模型(Small Language Model)
我们推出InternVL3,这是InternVL系列的重大突破,采用原生设计的多模态预训练范式。不同于将纯文本大语言模型(LLM)改造为支持视觉输入的多模态大语...
虽然大型视觉语言模型 (VLMs) 具备卓越性能,但其计算资源需求过高,限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案(...
大语言模型 (Large Language Models, LLMs) 的出现引发了人工智能领域的变革,推动了一系列具备复杂推理能力、强健感知能力和跨领域多任务...
大语言模型 (LLMs) 在自然语言处理领域取得了突破性进展。近期研究推动了一类新型推理大语言模型的发展:例如,开源模型 DeepSeek-R1 通过融合深层语...
本文提出 RWKV-7 "Goose"新型序列建模架构及其预训练语言模型。该模型在 30 亿参数规模下实现了多语言任务下游性能的新突破,其英语任务表现与当前最优...
随着先进的大语言模型的兴起,生成文本检测变得越来越重要。尽管有许多努力,但没有单一算法在不同类型的未见文本上表现一致,或保证对新的大语言模型的有效泛化。可解释性...
语言模型的预训练需要在广泛的语料库上进行训练,其中数据质量起着关键作用。在这项工作中,我们的目标是直接估计预训练期间数据的贡献,并以高效的方式选择预训练数据。具...
LLM-Microscope: 揭示 Transformer 上下文记忆中标点符号的隐藏作用
自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点,LLaDA 是一种在预训练和监督微调 (SFT...
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的...
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市