🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
Google 闪电战,Gemini 2.5 Flash 杀入 LMArena 榜单,直追 GPT-4.5 和 Grok-3。
LMArena 排行榜迎来新玩家:Google 最新发布的 Gemini 2.5 Flash。
战绩:
排名直接冲到并列第二, 跟 GPT 4.5 Preview 和 Grok-3 这些顶级模型打成平手。
LMArena 还专门放了张图,显示 Gemini 2.5 Flash 在性价比曲线上表现突出。
LMArena 的新 Beta UI 网站 (beta.lmarena.ai) 上已经可以同时测试 Gemini 2.5 Flash 和 Pro 了。
网友Nathan Lambert 开头就点赞:“谷歌可以啊,把昨天刚出的 O4-mini 都放进来了!不像有些公司只跟自己比。”
有人火力全开喷 OpenAI:“OpenAI 最近的图表真让人火大,想方设法藏着掖着,就是不想让人知道还有别的选择吧。”
“虽然没一个 SOTA,但这价格几乎是 o4-mini 的十分之一,厉害了。Flash 系列改名叫 Nano 更合适。”
“确实没打过 o4-mini,但看在价格份上,也说得过去。”
总之,大家对 Google 的坦诚表示肯定,但也觉得对比信息还可以更全,同时对性价比很关注。
Google 详解 Gemini 2.5 Flash:不光快和省,还能让你控制它“想多少”。
Google Cloud 官宣了 Gemini 2.5 Flash 的预览版上线(通过 Gemini API 在 Google AI Studio 和 Vertex AI 可用),并详细拆解了这款新模型的“杀手锏”。
Flash 2.5 不只是 2.0 的简单升级,核心变化是引入了“思考 (Thinking)”能力,而且是 Google 首个完全混合推理 (fully hybrid reasoning) 模型。
啥叫“思考模型”?
此外,可以看到,与 Flash 2.0 相比,2.5提升了不少。
Google 上图了:Gemini 性价比曲线,Flash 2.5 稳坐 C 位。
醒目的蓝线——“帕累托前沿 (Pareto Frontier)”:
帕累托前沿,几乎完全被 Google 的 Gemini 模型家族霸占了。从低端的 2.0 Flash-Lite,到中端的 2.0 Flash-001,再到最新的 2.5 Flash 和旗舰的 2.5 Pro,全都在这条线上。
思考多少,你说了算。
Google 知道不同场景对质量、成本、延迟的要求不一样,所以给开发者提供了 “思考预算 (thinking budget)” 这个精细控制的开关。
看看下面的例子,告诉你啥情况模型默认会想多少:
现在就能上手:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
Google 最后表示,会持续改进 2.5 Flash,在正式版 (GA) 发布前还会有更多更新。目标是让开发者用最低的成本、最快的速度,解决更复杂的问题。
网友实测:Gemini 2.5 Flash 吊打 OpenAI 模型,复杂编程任务“手到擒来”?
网友 RameshR (rezmeram) 搞了个测试:让 AI 写一个 包含物理模拟的 Galton Board (弹珠盘) HTML 文件。要求多,比如单文件、特定尺寸、用 2D 物理引擎、全宽障碍物、有物理隔断的收集箱、特定颜色、还得能演示正态分布…
结果:
Gemini 2.5 Flash: 用了 5 步迭代 搞定了。
RameshR 的结论: Gemini 2.5 Flash 在处理这种合并了多种复杂要求的任务时,理解能力和出码效率明显更强。他甚至贴出了 Prompt,鼓励大家自己去试试对比。
小插曲: 他也提了一句,虽然 Prompt 里写了“正态分布”,但技术上准确说是“二项分布”,AI 后端可能没太纠结这个细节。
Google 这款“闪电版”Gemini 2.5 Flash,不仅在性能上直逼顶级模型,而且价格优势明显,主打一个性价比。这对需要大规模部署 AI 的开发者来说,是个好消息。
以上。