首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >国产AI编年史,你不应该只知道DeepSeek

国产AI编年史,你不应该只知道DeepSeek

作者头像
宫水三叶的刷题日记
发布2025-02-26 21:50:11
发布2025-02-26 21:50:11
1890
举报
被忽略的闪烁

过去一阵子 DeepSeek 实在太火,美国那边好不容易出了个 Grok3,重新在"重算力"这条技术路线上,暂时夺回风头,英伟达的 CEO 黄仁勋也趁机回应了一下之前股价暴跌的事情。

结果 DeepSeek 开源周来了,第一天就开源了如何 H800 性能上限的 FlashMLA。

直接震惊海外网友:

国产开源 AI 如此优秀,也彻底引爆了海外网友的好奇心,纷纷前来关注中国还有多少优秀的 AI 大模型 🤣

除了 DeepSeek,以及广为人知的阿里 Qwen 以外,这些海外网友还找到了 MiniMax,这颗在 DeepSeek-R1 面世前就开始闪烁的新星。

作为一位长期替大家走在吃瓜前线的博主,我也跟随这些网友的脚步,了解了一下 MiniMax 这家公司。

首先不得不说,MiniMax 这个名字就取得很有创意。

我第一次听到这个词是在初中,当时在学习博弈论的相关知识,极小化极大算法(Minimax Algorithm)是零和博弈的经典决策算法,核心思想是"最小化对手造成的最大损失"。用 MiniMax 这么一个词作为公司名,我觉得在创意上,能和字节跳动(ByteDance)并列第一。

言归正传,海外网友之所以能关注到 MiniMax 这家中国公司,主要还是因为 MiniMax 的拳头模型 MiniMax-01 架构创新和技术突破。

更有意思的是,MiniMax-01 的发布比 DeepSeek-R1 还要早四天。

当时全球 AI 圈还尚未被 DeepSeek 的爆红点燃,MiniMax-01 就已经走在前面。这款支持「400 万 token 超长上下文」的开源大模型,以线性注意力架构创新和追平 GPT-4o 的性能登上全球技术社区热搜。

几天后的事情,全国(甚至全球)网友都知道了。

1 月 20 日,MiniMax-01 的光芒被 DeepSeek-R1 的开源浪潮所淹没。但戏剧性的是,一个月后,DeepSeek 与 Kimi(月之暗面)因同期发布长文本注意力机制论文(NSA vs MoBA)引发"撞车"热议时,人们才发现 MiniMax 早在 1 月就将技术创新的重点放在了注意力机制的创新上。

MiniMax 这种「技术先行却低调」的姿态,让其在网友中好感连连,也让我想起了一位很多年前爆火的卡通人物。

baymax
baymax

baymax

中国开源模型之路:从「追赶」到「定义规则」

或者我该用"更具有东方味道"的子标题《中国开源模型的特色主义道路》?🤣

不管怎么样,中国开源大模型的崛起,正以「技术深度」和「生态开放性」重构全球 AI 格局:

  • DeepSeek:凭借「三十分之一成本」的极致性价比,掀起企业私有化部署革命,定义 AI 普惠化新标准;
  • MiniMax:以「架构创新」突破 Transformer 范式,其线性注意力机制首次实现应用级长文本处理,通过开发者社区和开放平台赋能全球技术创新者,这一技术被海外开发者称为"东方技术哲学的最佳实践";
  • Qwen:采用流行的「全模态全尺寸」开源策略,衍生模型超 7.8 万个,成为众多开发者的基底模型;
  • 文心一言:宣布 4 月 1 日全面免费并开源下一代模型,标志大厂从「闭源垄断」向「生态共建」的战略转向;

这场竞争中,中国模型不再满足于「对标 GPT」,而是通过「开源协作」和「垂直场景穿透力」,正在定义下一代 AI 的基础规则。

MiniMax 的模型哲学

其实 MiniMax 最让我印象深刻的,不是拳头产品 MiniMax-01 的创新性,而是它做大模型时选择的"反直觉路径"(至少在当时看起来是)。

我看完了 MiniMax 创始人兼 CEO 闫俊杰的晚点对话访谈,原文在 这里,你们有兴趣的话可以去看看。

访谈文的发布时间是 1 月 17 号,仍然是在 DeepSeek-R1 发布时间点前。

总结一下这场访谈,有些观点,可能在 DeepSeek-R1 出现之前,是有争议的,但在今天看来,是显然正确。

例如,"如果可以重新选,应该第一天就开源",这是闫俊杰在对话中的原话:

现在看来,这简直是预言家发言。在我们之前的 推文 也聊到过类似的观点,DeepSeek 的出现,对 AI 领域的最大正向作用,是让奥特曼(OpenAI 的创始人兼 CEO)重新考虑开源,而不是藏着捏着,想着如何利用领先业界的模型去盈利。

以及,"做一个看上去像 o1 的东西没那么难,我们不需要这样的新闻稿" 这样的观点:

这里其实也提到了「蒸馏若干 o1 数据可以得到(至少在 benchmark 上)和 o1 性能接近的模型」是业界共识,但公司业务重点不在这。

访谈中的最高潮部分,是闫俊杰认为,不要用移动互联网的思维去做 AI,做 AGI 和做 ChatGPT 类产品是两件事

作为一家需要自负盈亏,也是身处浪潮(AI 革命时代)的公司。能够如此清楚认识到,盲目追求用户数/日活/订阅量,对于技术本身(模型发展)可能只有负作用,属实难得。

MiniMax-01

聊了这么多,那 MiniMax 这家公司的拳头模型 MiniMax-01 如何使用呢?

MiniMax-01 其实包括了 基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01。

两个模型的完整权重,都可以在 https://github.com/MiniMax-AI 中找到。

当然,如果你想图省事,也可以在来海螺 AI 的官方入口 https://hailuoai.com/ 体验,除了常规的问答以外,还有「文生视频」和「文字转语音」功能,都是免费的,而且响应速度和效果都不错,大家可以前往把玩:

好了,今天的「国产 AI 编年史 -- MiniMax」的故事就到这里,今天内容较多,就不安排刷题了,明天见。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 宫水三叶的刷题日记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 被忽略的闪烁
  • 中国开源模型之路:从「追赶」到「定义规则」
  • MiniMax 的模型哲学
  • MiniMax-01
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档