前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >快如闪电,还能控制思考深度?谷歌 Gemini 2.5 Flash 来了,用户盛赞“绝妙组合”。

快如闪电,还能控制思考深度?谷歌 Gemini 2.5 Flash 来了,用户盛赞“绝妙组合”。

作者头像
AI进修生
发布2025-04-19 23:57:22
发布2025-04-19 23:57:22
63100
代码可运行
举报
文章被收录于专栏:AI进修生AI进修生
运行总次数:0
代码可运行

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Google 闪电战,Gemini 2.5 Flash 杀入 LMArena 榜单,直追 GPT-4.5 和 Grok-3。

LMArena 排行榜迎来新玩家:Google 最新发布的 Gemini 2.5 Flash

战绩:

排名直接冲到并列第二, 跟 GPT 4.5 Preview 和 Grok-3 这些顶级模型打成平手。

  • 硬核实力不俗: 在困难提示词 (Hard Prompts)、编码 (Coding) 和长查询 (Longer Query) 这三个硬骨头领域,直接拿到并列第一
  • 全面能打: 在所有评测类别里都排进了前四
  • 性价比是王道: 官方说法是针对速度和可扩展性优化过的轻量设计,但社区投票显示它在硬核任务上表现惊人。更关键的是,价格比它大哥 Gemini 2.5 Pro 便宜 5-10 倍

LMArena 还专门放了张图,显示 Gemini 2.5 Flash 在性价比曲线上表现突出。

LMArena 的新 Beta UI 网站 (beta.lmarena.ai) 上已经可以同时测试 Gemini 2.5 Flash 和 Pro 了。

  • 有人称赞它 “快如闪电,锐如刀锋 (blazing fast and razor sharp)”,在硬核任务上表现出色,价格还低,是可扩展 AI 工作流的“绝妙组合 (chef’s kiss combo)”。

网友Nathan Lambert 开头就点赞:“谷歌可以啊,把昨天刚出的 O4-mini 都放进来了!不像有些公司只跟自己比。”

有人火力全开喷 OpenAI:“OpenAI 最近的图表真让人火大,想方设法藏着掖着,就是不想让人知道还有别的选择吧。”

“虽然没一个 SOTA,但这价格几乎是 o4-mini 的十分之一,厉害了。Flash 系列改名叫 Nano 更合适。”

“确实没打过 o4-mini,但看在价格份上,也说得过去。”

总之,大家对 Google 的坦诚表示肯定,但也觉得对比信息还可以更全,同时对性价比很关注。

Google 详解 Gemini 2.5 Flash:不光快和省,还能让你控制它“想多少”。

Google Cloud 官宣了 Gemini 2.5 Flash 的预览版上线(通过 Gemini API 在 Google AI Studio 和 Vertex AI 可用),并详细拆解了这款新模型的“杀手锏”。

Flash 2.5 不只是 2.0 的简单升级,核心变化是引入了“思考 (Thinking)”能力,而且是 Google 首个完全混合推理 (fully hybrid reasoning) 模型。

啥叫“思考模型”?

  • 跟之前拿到 prompt 就直接输出不一样,2.5 Flash 能先 “想一想”
  • 这个“思考”过程能帮它更好地理解你的要求,把复杂任务拆解开,规划好怎么回答。
  • 对于需要多步推理的复杂问题(比如解数学题、分析研究问题),先“想一想”能让答案更准、更全面。

此外,可以看到,与 Flash 2.0 相比,2.5提升了不少。

Google 上图了:Gemini 性价比曲线,Flash 2.5 稳坐 C 位。

醒目的蓝线——“帕累托前沿 (Pareto Frontier)”:

  • 这条线代表了当前市场上 性价比的极限。线上的点,意味着在同等价格下性能最好,或者在同等性能下价格最低。

帕累托前沿,几乎完全被 Google 的 Gemini 模型家族霸占了。从低端的 2.0 Flash-Lite,到中端的 2.0 Flash-001,再到最新的 2.5 Flash 和旗舰的 2.5 Pro,全都在这条线上。

思考多少,你说了算。

Google 知道不同场景对质量、成本、延迟的要求不一样,所以给开发者提供了 “思考预算 (thinking budget)” 这个精细控制的开关。

  • 你可以设置一个 token 上限,告诉模型“最多想这么多”。预算越高,模型就能思考得更深入,质量可能就更好。
  • 但注意:这只是个 上限。模型很聪明,会根据任务的复杂度自己判断需要想多少,不会没事儿就用满预算瞎想。
  • 想追求极致的低成本和低延迟?直接把 思考预算设为 0。即使这样,性能也比之前的 2.0 Flash 有提升。
  • 预算范围:0 到 24576 tokens (对于 2.5 Flash)。可以通过 API 参数或 AI Studio / Vertex AI 里的滑块来设置。

看看下面的例子,告诉你啥情况模型默认会想多少:

  • 低思考量: “西班牙语的谢谢怎么说?” / “加拿大有几个省?”
  • 中等思考量: “掷两个骰子,和为 7 的概率是多少?” / “给我排个健身房打球和上班都不冲突的时间表…”
  • 高思考量: 复杂的物理题(悬臂梁弯曲应力计算) / 复杂的编程题(写个解析电子表格公式的函数,还得处理依赖、优先级、循环检测)。

现在就能上手:

  • 2.5 Flash 预览版已在 Gemini API (Google AI Studio / Vertex AI) 和 Gemini App 的下拉菜单中提供。
  • 官方鼓励大家多试试 thinking_budget 参数,看看这种可控推理能力能不能帮你解决更复杂的问题。还附上了 Python 代码示例:
代码语言:javascript
代码运行次数:0
运行
复制
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-04-17",
  contents="You roll two dice. What’s the probability they add up to 7?",
  config=genai.types.GenerateContentConfig(
    thinking_config=genai.types.ThinkingConfig(
      thinking_budget=1024
    )
  )
)
print(response.text)

Google 最后表示,会持续改进 2.5 Flash,在正式版 (GA) 发布前还会有更多更新。目标是让开发者用最低的成本、最快的速度,解决更复杂的问题。

网友实测:Gemini 2.5 Flash 吊打 OpenAI 模型,复杂编程任务“手到擒来”?

网友 RameshR (rezmeram) 搞了个测试:让 AI 写一个 包含物理模拟的 Galton Board (弹珠盘) HTML 文件。要求多,比如单文件、特定尺寸、用 2D 物理引擎、全宽障碍物、有物理隔断的收集箱、特定颜色、还得能演示正态分布…

结果:

Gemini 2.5 Flash: 用了 5 步迭代 搞定了。

  • OpenAI 的模型 (o4-mini, o4-mini-high, o3): 哥们儿试了 半小时直接放弃,没跑出来。

RameshR 的结论: Gemini 2.5 Flash 在处理这种合并了多种复杂要求的任务时,理解能力和出码效率明显更强。他甚至贴出了 Prompt,鼓励大家自己去试试对比。

小插曲: 他也提了一句,虽然 Prompt 里写了“正态分布”,但技术上准确说是“二项分布”,AI 后端可能没太纠结这个细节。

Google 这款“闪电版”Gemini 2.5 Flash,不仅在性能上直逼顶级模型,而且价格优势明显,主打一个性价比。这对需要大规模部署 AI 的开发者来说,是个好消息。

以上。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Aitrainee | 公众号:AI进修生
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档