暂无搜索历史
5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型...
大模型(LLM)主要依赖于分词器(Tokenizer )将文本转换为Tokens,目前主流开源大模型基本上都是基于英文数据集训练得到的,然而,此类模型当处理其它...
大模型数学推理评测基本上都绕不开GSM8k测试基准,当前很多大模型在该数据集上都展现出较强的性能。然而,本文作者怀疑此类模型在训练过程种可能包含了与测试题目相似...
AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。
OpenAI 有了新动向!今日凌晨 OpenAI 官宣,将于美国时间 13 日上午 10 点进行一场直播。Sam Altman 随即转发这一消息,并表示「不是 ...
目前多模态LLMs主要通过增加文图对( text-image)数据和增强LLMs来提升性能,然而,此类方法计算成本较高,同时忽略了从视觉方面提升模型能力的重要性...
来自上海交通大学、加利福尼亚大学的研究团队展示了预训练的LLMs可以轻松地被教导成为高效的并行解码器,并介绍了一种新的并行解码器族,称为一致性大语言模型(CLL...
众多神经网络模型中都会有一个有趣的现象:不同的参数值可以得到相同的损失值。这种现象可以通过参数空间对称性来解释,即某些参数的变换不会影响损失函数的结果。基于这一...
大模型(LLMs)在上下文学习方面展现出了卓越的能力。为了提高LLMs在复杂推理任务中的表现,人们提出思维链”(Chain-of-Thought,CoT)的方法...
LSTM( Long Short-Term Memory)最早源于20世纪90年代,为人工智能的发展做出了重要贡献。然而,随着Transformer技术的出现,...
ICLR 全称为国际学习表征会议(International Conference on Learning Representations),今年举办的是第十二...
陈巍:KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点(“神经元”)上具有固定的激活函数,而 KAN 在边(“权重”)上具有可学...
过去几年,借助Scaling Laws的魔力,预训练的数据集不断增大,使得大模型的参数量也可以越做越大,从五年前的数十亿参数已经成长到今天的万亿级,在各个自然语...
五一假期转瞬即逝,明天又要投入到紧张而充实的工作学习中了。假期的最后一天,作者总结了假期期间一些优秀的学术成果,供大家学习交流。这些论文不仅涵盖了多模态、大模型...
多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) ...
为了提升大模型的推理效率,本文作者提出一种新型的自推测解码框架:Kangaroo,该框架将大模型的一个固定浅层子网络作为自草稿模型(self-drafting ...
前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。
好久没有给大家梳理文章了,今天分享8篇有关大模型(LLMs)的最新研究进展,其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。全部论文获取方式,...
奥特曼指出:GPT-5会比GPT-4强得多,GPT-6还会更强;Scaling Law还未过时,我们远未达到这条曲线的顶端;谷歌用GPT-4复刻出Gemini很...
多模态大模型是大模型发展的必然趋势,它拓展了大模型的性能,超越了纯文本问答模式。对于大模型来说,为了能够尽快适配快速变化的事实知识,目前常见的方法就是检索增强生...
暂未填写公司和职称
暂未填写学校和专业
暂未填写个人网址