首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

新模型的最大亮点是,在业内首次大规模实现了新的线性注意力机制,这使得输入的上下文窗口大大变长:一次可处理 400 万 token,是其他模型的 20-32 倍。...而大规模训练都有自己的特有挑战,MiniMax 开发了一系列针对性的优化技术。 首先,对于 MoE 架构,最主要的优化目标是降低其通信负载。...MiniMax 将其命名为 MiniMax-Text-01。在执行推理时,它的上下文长度最高可达 400 万 token,并且其表现出了非常卓越的长上下文能力。...人类评估者也给出了非常正面的评价:诗意的语言和演绎空间为歌曲增添了层层的趣味和情感共鸣,使歌曲既引人入胜又发人深省。 下面重点来看看 MiniMax-Text-01 的长上下文能力。...当然,为了确保 MiniMax-VL-01 的视觉理解能力足够好,还需要在文本模型的基础上使用图像-语言数据进行持续训练。为此,MiniMax 设计了一个专有数据集,并实现了一个多阶段训练策略。

12000

Python手写强化学习Q-learning算法玩井字棋

MDP 通常包括有: 一组有限的动作 A(在游戏面板上所有可以放置标记的位置) 一组有限的状态 S(游戏面板上的所有可能情形) 一种奖励函数 R(s,a) 转移函数 T(s,a,s') 转换函数给出了在执行动作...但是需要注意的是,对于 tic-tac-toe 游戏,我们确切地知道每个动作会做什么,所以我们不会使用转移函数。 ?...在 tic-tac-toe 游戏中,我们通过让代理与对手进行多场比赛来迭代更新 Q(s,a),用于更新 Q 的方程如下: ?...通常选择 γ=0.9 Q-learning 算法实现 为了得到一个经过充分训练的代理,我们需要获得 Q(s,a) 的值,这将通过让两个代理互相比赛来完成。...虽然由于 tic-tac-toe 游戏并不复杂,代理并没有获得高级智能,但是尝试这个方法可以学习如何实现 Q-learning 并了解它是如何工作的。

1.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    百模大战正酣,看看国内大模型谁更了解 K8S?(一)

    一时间,“大模型”这个词成为了媒体以及各路科技创业者口中最常被提及的词语。2023 年初,各大公司纷纷宣布将会推出自己的大模型,投入了大量的人力物力,以期在这场”百模大战“中脱颖而出。...ChatGLM 的任务是针对用户的问题和要求提供适当的答复和支持。...MiniMax MiniMax 提供的 API 以极简的形式供企业用户或企业开发者调用,同时针对不同的行业及场景进行不同的能力抽象和封装,最大限度的降低使用者的开发复杂性,快速在目标场景中验证价值并进行生产部署...怎么实现 Kubernetes 的负载均衡? 怎么实现 Kubernetes 的滚动更新? 怎么实现 Kubernetes 的回滚操作? 怎么配置 Kubernetes 的资源请求和限制?...但这些内容都是一些基本的问题,对于一些更加复杂的问题,需要对每个 prompt 进行更精细的调整,也能得到准确的结果,这也对使用大模型的人提出了更高的要求。

    52440

    没有大招的火山引擎,拿下70%大模型玩家

    而在AI开发效率方面,火山引擎推出了Lego算子优化。 具体而言,这一框架可以根据模型子图的结构,采用火山引擎自研高性能算子,实现更高的加速比。...MiniMax联合创始人杨斌说,依托火山引擎机器学习平台,MiniMax研发了超大规模的大模型训练平台,高效支撑着三个模态大模型每天千卡以上的常态化稳定训练。在并行训练上实现了99.9%以上的可用性。...有稳健的大模型基础设施,MiniMax从零开始自主完整地跑通了大模型与用户交互的迭代闭环,实现从月至周级别的大模型迭代速度,和指数级的用户交互增长。...从今年开始,MiniMax又和火山引擎在网络和存储上进行了更深入的优化合作,实现更低的网络延迟,将带宽利用率提升了10%以上。...为此,火山引擎不仅将以上工程实现进行封装,推出了基于TensorFlow的机器学习训推一体框架Monolith,还拿出了针对智能推荐的高速GPU训练和推理引擎——Monolith Pro。

    32010

    每日学术速递2.23

    本文利用群论提出了一个理论和实践框架,允许(1)识别系统的形态对称群G,(2)本体感知和外感知测量的数据增强,以及(3)通过使用G等变/不变神经网络利用数据对称性,针对合成和真实世界应用提出了实验结果,...为了解决这个问题,我们提出了 BrackishMOT 数据集,重点是跟踪小鱼群,这是众所周知的困难 MOT 任务。BrackishMOT 由 98 个在野外捕获的序列组成。...除了新颖的数据集,我们还通过训练最先进的跟踪器来呈现基线结果。此外,我们提出了一个用于创建合成序列的框架以扩展数据集。该框架由动画鱼模型和逼真的水下环境组成。...Subjects: cs.RL 3.Minimax-Bayes Reinforcement Learning 标题:Minimax-Bayes 强化学习 作者:Thomas Kleine Buening...然而,这在顺序决策制定中不像在简单的统计估计问题中那样容易指定。本文针对各种强化学习问题研究(有时是近似的)minimax-Bayes 解决方案,以深入了解相应先验和策略的属性。

    18720

    MARL 算法汇总

    收敛性(convergence):在其他智能体也使用学习算法时,当前智能体能够学习并收敛到一个稳定的策略。通常情况下,收敛性针对系统中的所有的智能体使用相同的学习算法。...从实现上来讲,它采用的是经典的 actor-critic 架构,actor 负责接收局部观测,并输出动作,critic 负责评估在当前状态下做出该动作的好坏。...为了能够解决上述问题,作者提出了“值函数分解(Value-Decomposition)”的研究思路,将团队整体的值函数分解成 N 个子值函数,分别作为各智能体执行动作的依据。...MADDPG 本质上还是一个 DPG 算法,针对每个智能体训练一个需要全局信息的 Critic 以及一个需要局部信息的 Actor,并且允许每个智能体有自己的奖励函数(reward function),...Nash Q-Learning 在 合作性均衡 或 对抗性均衡 的环境中能够收敛到纳什均衡点,其收敛性条件是,在每一个状态的阶段博弈中,都能够找到一个全局最优点或者鞍点,只有满足这个条件,Nash Q-Learning

    96610

    不止deepseek,这家国内AI公司也在海外杀疯了

    MiniMax-01 中实现的线性注意力机制特别值得说一下,前几天 DeepSeek 发布的论文上也提到了架构创新,但其实这个创新早在 1 月份就被落地在MiniMax-01模型上并开源 ,它打破了Transformer...熟悉我的读者都知道,我开源了一本《图解系统》 pdf,文件内涵盖 15 万字的内容 + 500 多张图,现在来用这个 pdf ,实测看看 MiniMax-01 长文本处理的能力如何?...直接打开这个地址:https://minimaxi.com/,就能直接在线体验 MiniMax-01 新模型。...回答很到位,零拷贝每一种技术实现的方式都做了详细的说明,还给出了零拷贝的局选性,甚至还给出了「 sendfile 零拷贝总数据拷贝次数减少到 2 次,且所有拷贝都由 DMA 完成」这些比较细节的事情。...我们直接导入需要学习的 pdf,利用 MiniMax-01 模型这强大的长文本处理能力,先让它帮我们梳理核心内容,再根据具体的细节进一步提问,还不懂可以继续追问,直到掌握这个知识为主。

    5600

    生产力工具中的“六边形战士”:解密海螺AI“红海突围”的底气

    拐点出现在2024年初,MiniMax发布了国内首个基于MoE架构的abab 6,找到了越来越多加速实现Scaling Laws的途径,包括改进模型架构、重构数据pipeline等等,并在三个月后研发出了更强大的...MiniMax之所以做出了海螺AI这样“能打”的生产力工具,根源在于技术驱动的产品方法论,只有具备足够好的产品能力,才能承接和转化取得的技术进展,否则会落得一场空。...03 、做普通人每天用的产品 资本圈里流传着一句话:判断一位人工智能创业者是否真正的AGI信仰,就看这个人创业是在2023年之前还是之后。...生产力工具作为当下最拥挤的大模型赛道,市面上的产品已经多达几十款,豆包、文心一言、智谱清言、Kimi……哪怕是在高度内卷的局面下,肩负MiniMax信仰的海螺AI,依然表现出了差异化和稀缺性。...原先阅读一篇报告需要至少两个小时的时间,现在不到5分钟就能完成,工作效率可以说是实现了指数级增长。 然后是多元的使用场景。

    45810

    国产AI编年史,你不应该只知道DeepSeek

    被忽略的闪烁 过去一阵子 DeepSeek 实在太火,美国那边好不容易出了个 Grok3,重新在"重算力"这条技术路线上,暂时夺回风头,英伟达的 CEO 黄仁勋也趁机回应了一下之前股价暴跌的事情。...作为一位长期替大家走在吃瓜前线的博主,我也跟随这些网友的脚步,了解了一下 MiniMax 这家公司。 首先不得不说,MiniMax 这个名字就取得很有创意。...我第一次听到这个词是在初中,当时在学习博弈论的相关知识,极小化极大算法(Minimax Algorithm)是零和博弈的经典决策算法,核心思想是"最小化对手造成的最大损失"。...:以「架构创新」突破 Transformer 范式,其线性注意力机制首次实现应用级长文本处理,通过开发者社区和开放平台赋能全球技术创新者,这一技术被海外开发者称为"东方技术哲学的最佳实践"; Qwen:...MiniMax 的模型哲学 其实 MiniMax 最让我印象深刻的,不是拳头产品 MiniMax-01 的创新性,而是它做大模型时选择的"反直觉路径"(至少在当时看起来是)。

    3500

    MiniMax、智谱AI等已登陆

    而且在具体实现路径上,火山引擎还给出了一种别样的打法,并且形成了鲜明的自身特点。 火山引擎智能算法负责人吴迪给出了三个关键词来总结: 开放、加速、信任。 所以火山方舟有何不同?...硬件方面,NVIDIA针对生成式AI的不同硬件配置与火山引擎底层平台深度结合。 在软件层面也提出了多种优化方法,双方一起做了很多开源发布,以图像预处理算子库CV-CUDA为例。...此外,火山引擎还推出了Lego算子优化。 这一框架可以根据模型子图的结构,采用火山引擎自研高性能算子,实现更高的加速比。...大模型玩家MiniMax基于火山引擎,研发了超大规模的大模型训练平台,高效支撑着三个模态大模型每天数千卡以上的常态化稳定训练。在并行训练上实现了99.9%以上的可用性。...稳健的大模型基础设施让MiniMax从零开始自主完整地跑通了大模型与用户交互的迭代闭环,实现从月至周级别的大模型迭代速度,和指数级的用户交互增长。

    28620

    ICLR Spotlight! 清华提出时序异常检测算法,连刷5个SOTA

    基于以上观察,我们提出了Anomaly Transformer模型,实现了基于关联差异(Association Discrepancy)的时序异常检测。...Anomaly Transformer在5个基准中均实现了SOTA的效果。更多基准模型及数据说明请见论文。...3.1 消融实验 我们设计消融实验验证了提出的先验关联、训练策略、新的异常判据的有效性。 3.2 判据分析 针对时序异常的5种类型,我们可视化了其在不同异常判据下的区分性。...可以发现基于关联差异的异常评判曲线有着更加准确的可区分性。 3.3 先验关联分析 针对上述不同的异常类别,我们也提供了先验关联中学到参数的可视化。...总结 本文关注无监督时序异常检测问题,提出了基于关联差异的异常检测模型Anomaly transformer,并通过一个极小极大(Minimax)关联学习策略大幅提高了模型的异常检测能力。

    75330

    MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评

    机器之心原创 作者:吴昕 继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型...请帮我深入理解这篇最新发表研究论文,并从以下几个方面对论文进行详细解读: 1.论文的研究目标是什么?要解决的重要问题是什么?这个问题对于学界或者产业发展,有什么重要意义?...abab 6.5 研发过程中,MiniMax 找到了更多加速实现 Scaling Laws 的办法,包括改进模型架构、重构数据 pipeline、训练算法及并行训练策略优化等等。...在消费者市场,据不完全统计,包括 2022 年推出的 Glow、“海螺AI”以及一款定位沉浸式 AI 内容平台的应用星野在内,MiniMax 至少已经推出了 4 款 AI 原生应用。...闫俊杰不久前接受采访时给出了判断,资源排在前列的中国大模型创业公司很难在资源占有量上领先对手一个量级,“拐点只可能来自技术、产品或者是商业化效率的领先。”

    1K10

    MiniMax:大模型,云上造!

    MiniMax找到了腾讯云团队——腾讯云布局异构计算多年,在深度学习、科学计算、芯片仿真等高性能计算场景下积累的多年经验,还面向大模型推出了「HCC高性能计算集群」。...随后,业务逐步开放,MiniMax也迎来了创立以来首个的模型验证、推理任务的洪峰,在云底座的支撑下,激增的并发计算量被稳健扛住。在保证研发进度的情况下,MiniMax也完成了一次顺滑的底座升级。...一方面,利用腾讯云TKE,MiniMax实现了对不同规格云服务器的统一管理和调度,各种类型的应用和服务得以部署在同一套基础设施上,资源实现了高效整合,资源利用率大幅提升;另一方面,云原生的管理方式,支撑...通过腾讯云的数据集成DataInlong、流计算Oceanus、数据湖计算DLC等云原生大数据产品提供的数据处理能力,对大量数据做实时或离线分析,满足了MiniMax在各个阶段的数据分析需求,实现数据的快速灵活部署...通过引入腾讯云的防火墙、WAF、主机安全、漏洞扫描、数据加密、iOA零信任安全管理等一系列安全产品,MiniMax实现了对云上资产的全方位保护,确保业务的稳定运行和数据的安全性。

    1.5K30

    对标 OpenAI GPT-4,MiniMax 国内首个 MoE 大语言模型全量上线

    MoE 架构全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。MoE 模型将覆盖不同学习者(专家)的不同输入数据。...为了解决这个问题,进一步提升模型在复杂任务下的效果,MiniMax 技术团队从去年 6 月份起开始研发 MoE 模型——abab6 是 MiniMax 的第二版 MoE 大模型(第一版 MoE 大模型已应用于其...虽然MiniMax 并未透露 Abab6 的具体参数,但据MiniMax 透露 ,Abab6 比上一个版本大了一个量级。...在简单的任务上,abab5.5 已经做得比较好,因此 MiniMax 选择了三种涵盖了较复杂的问题的评测方法: IFEval: 这个评测主要测试模型遵守用户指令的能力。...MT-Bench: 这个评测衡量模型的英文综合能力。提问者会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。

    1K10

    国产五大模型之一MiniMax 使用国内首个MOE架构

    阿里被曝2024年面向AIGC的第二次大手笔投资来了——加注大模型赛道独角兽Minimax,领投至少6亿美元。彭博社消息称,新一轮融资或将使MiniMax估值超25亿美元。...MiniMax 提供多种基于其大模型的产品与服务,包括但不限于 MiniMax API 开放平台、海螺 AI 和星野等。...Minimax使用的大语言模型架构是国内发布的首个MoE架构,全称专家混合(Mixture-of-Experts),是一种集成方法,其中整个问题被分为多个子任务,并将针对每个子任务训练一组专家。...Switch Transformers[22]进一步完善了这个概念,通过扩展MoE方法,在视觉理解上实现了前所未有的模型大小和训练效率。...这一阶段集中于通过针对特定跨模态数据的专门训练来发展单模态专家。目标是提高每个专家在其各自领域内的熟练程度,从而提高MoE系统在多样化多模态数据上的整体性能。

    1.8K10

    个性经济时代,MiniMax 语音大模型如何 To C?

    近日,MiniMax 也推出了新一代语音大模型,在多项性能指标上超越了传统的语音技术。 语音模型的能力在 MiniMax 自家产品星野中有广泛运用。...具体来说,文本角色分类 API 可以快速分辨出不同角色对应的不同对话,角色音频生成 API 可实现多角色区分、多角色播报,快速复刻 API 可以让用户线上快速完成音色复刻。...T2A Stream (流式语音输出)能够以 500 字符的输入处理能力迅速响应。针对需要即时反馈的情景,在互动形式的对话中实时生成语音,用户无需等待即可获得语音回复。...只需要根据界面的指令,朗读一段 40 字左右的给定文本,等待几秒,即可听到高还原度的自己的声音。 如此一来,使用海螺问问的每个普通用户都可以轻松实现无限复刻声音的需求。...AI 科技评论独家获悉,通过这一功能,用户之间便可以通过类似口令红包的方式,在微信等社交媒体上相互分享自己克隆出来的声音,进一步实现「语音社交」。

    60610

    破案了!百万用户与AI交友,背后果然有大模型

    尤其是对话质量相近、AI双商在线的那种。 这不,主打社交型AI聊天的Glow在知乎上又掀起了一波讨论度。 这个早于ChatGPT发布的对话AI,4个月内注册用户近百万。...在Glow里,用户可以根据喜好创建有背景设定、有特定性格的智能体。 神奇之处就在于,智能体的性格特质只需要通过一段简短的描述实现,并能在后续对话中不断调整强化。...换句话说,只要你能把想象中的虚拟角色用语言描述出来,AI就能帮你实现。 于是可以看到,Glow上已有不少用户创建的热门文艺作品中的角色,可以跳脱出固定剧情之外,与用户演绎全新的故事。...Glow也仅仅是这个计算推理平台支持的第一款产品,目前已能满足每天上亿次的用户调用。 在这些基础能力上,MiniMax还向量子位透露了更进一步的计划: 今年对外开放API接口。...过去很长一段时间,国内外都鲜少有主打AGI领域的创业公司。 为什么MiniMax会在成立之初就坚信AGI? 在首次媒体交流会上,联合创始人杨斌给出了回答。 杨斌介绍,初始的团队成员来自各行各业。

    45710

    谷歌用新RLHF框架解决了这个问题

    我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增长率。...,而这些难题所需的训练数据已经超出了人类的能力。...于是,问题就来了:语言模型能否自我创建可学习的新任务,从而实现自我改进以更好地泛化用于人类偏好对齐? 为了提升语言模型的对齐能力,人们已经提出了许多偏好优化算法,但它们都默认使用固定的提示词训练分布。...该团队采用了 minimax regret 策略,其中求解器的目标是最小化后悔值,而创建器则是为了最大化这个值,即当前策略和最优策略之间的奖励之差为: 在纳什均衡下,之前已有研究表明: 然而,如果无法获得真正的最优策略...针对此现象,该团队给出了自己的假设:eva 可演化出全新的可学习的提示词,并且其中包含第二轮问题的特征,这表明 eva 涌现出了处理后续互动等新技能。

    6700

    时序异常检测 Anomaly transformer

    )进行建模,以计算关联差异(Association Discrepancy)**; 提出了一种极小极大策略(Minimax Strategy)来放大关联差异的normal-abnormal可区分性; Anomaly...Transformer真实数据中,对比多个benchmarks,模型实现SOTA的异常检测结果。...为了实现最大最小学习方向的切换,可通过改变Loss里λ方向: 由于要分开优化先验关联和序列关联,所以梯度回传时要注意,最小化时回传梯度给先验关联,最大化时回传梯度给序列先验。...Max和Minimax 分别指Max和Minimax的关联差异策略。 具体而言,基于关联的方式带来了显著的提升;可学习的先验关联和Minimax策略可以进一步改进模型。...4.总结 对于无监督时序异常检测问题,提出了基于关联差异的异常检测模型Anomaly transformer,并通过一个Minimax学习策略大幅提高了模型的异常检测能力。

    96221

    AI大模型独角兽 MiniMax 基于 Apache Doris 升级日志系统,PB 数据秒级查询响应

    以上,10 亿级日志数据的检索速度可实现秒级响应。...目前基于 Apache Doris 的新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。...如果想要实现日志内容搜索功能,需使用 Query 对全量日志数据进行全文正则匹配, 而该操作会带来巨大的突发资源消耗,包括 CPU、内存、网络带宽。...为什么选择 Apache Doris根据 AI 场景的数据特点及业务需求,MiniMax 对新日志系统提出了以下要求:日志数据规模庞大:由于 AI 业务场景具备链路长、上下文数据多、单次请求数据量大等特点...写入性能高:当前系统规格可以实现 10 GB/s 级别的日志写入吞吐,能够在满足持续高吞吐写入的同时满足实时性要求,数据延迟控制在秒级。

    16610
    领券