

题图摄于故宫西北角楼
这是我最近半年看 AI 大模型更新时,少有的“不是炫技,真能落地”的一次。
Gemini 3.5 Flash 的重点,不是又快了一点,而是把 100 万 token 上下文、动态思考、多模态和智能体执行,放到一个更适合真实工作的平衡点里。
换句话说,Gemini 3.5 Flash标志着 AI 大模型正在从 "回答问题",真正走向 "进入工作流"。
核心亮点速览✅ 上下文:最高约 100 万 token,可处理长报告、代码库、会议资料✅ 输出:最高约 64K token,适合长报告、完整方案和代码生成✅ 多模态:文本 / 图像 / 音频 / 视频输入都支持✅ 动态思考:简单任务省算力,复杂任务深思考(官方名:thinking levels)✅ 定位:面向智能体工作流、编码任务和企业长流程 |
|---|
过去一年,大模型行业很喜欢比跑分:谁推理更强,谁写代码更猛,谁考试分数更高。
但真正到了工作里,用户关心的不是它能不能答得漂亮,而是能不能稳定、便宜、快速地把事情做完。工作不是单轮问答,而是一串连续动作:读材料、找重点、做判断、调用工具、检查结果,必要时还要回头修改。
所以我看 Gemini 3.5 Flash,最关注的不是“它是不是最强模型”,而是它能不能成为日常工作里的主力引擎。
第一是长上下文。官方 Model Card 写明,它支持最高 1M token 上下文。通俗说,就是不用你把一份长报告、一堆会议记录或一个代码库切成很多小块再喂给 AI。
第二是动态思考。thinking levels 可以在质量、成本和延迟之间做取舍。我更愿意把它理解成“AI 智能省电模式”:简单任务少花算力,复杂任务多做推理。
第三是多模态。文本、图像、音频、视频都能输入,意味着它不只适合写文案,也能进入会议、截图、图表、视频素材这些真实工作场景。
第四是智能体执行。它不是只回答“你应该怎么做”,而是更接近“我来一步步帮你做”。这正是 AI 从聊天机器人走向工作流助手的关键。
官方跑分真正值得看的,不是数字本身,而是数字背后的能力。
Terminal-bench 2.1 得分 76.2%,说明它在终端、脚本和代码任务上更能干活;MCP Atlas 得分 83.6%,说明它更适合多步工具调用和智能体工作流。
OSWorld-Verified 得分 78.4%,指向的是“操作数字界面”的潜力;MMMU-Pro 得分 83.6%、CharXiv Reasoning 得分 84.2%,说明它处理图文混合材料和复杂图表时也有竞争力。
这些数据合在一起看,Gemini 3.5 Flash 的定位很清楚:它不是只追求最强智商,而是更适合高频、长流程、多工具协作的真实任务。而这,才是大多数人真正需要的 AI。
想象一个普通工作日:早上,它从邮件里提取会议时间、截止日期和待办事项;上午,它读完一份长报告,标出关键结论和风险点;下午,它根据会议录音生成纪要,把任务分配整理出来。
如果你是程序员,可以让它理解更大的代码上下文,定位 bug、生成测试;如果你是内容创作者,可以让它读完资料、整理提纲、改写成公众号稿;甚至,它还能把孩子学校发来的几十条杂乱通知,整理成一张清晰待办表。
这些任务都不酷,但很高频。很多人每天不是被一个大问题拖垮,而是被几十个小任务消耗掉注意力。AI 真正的价值,未必是完成惊天动地的大项目,而是持续吃掉这些重复、分散、低创造力的工作。
企业看 AI,核心就三件事:低成本、可规模化、安全可控。
如果一个智能体流程要调用模型几十次、几百次,那模型再强,只要太贵、太慢,就很难真正上线。Flash 系列原本的优势就是快和轻,这次又补上长上下文、推理和智能体能力,所以它更像企业后台的“常用发动机”。
未来企业里的 AI,很可能不是一个万能机器人,而是一组小型智能体:一个读合同,一个检查财务异常,一个整理客服工单,一个跑代码测试,一个生成周报。单次回答是否惊艳不再是唯一标准,能不能连续、稳定、可控地运行,才是关键。
我不想把智能体说得太完美。演示成功是一回事,长期稳定运行是另一回事。
第一,稳定性。长流程、多步骤执行时,它会不会中途跑偏?我之前试过不少智能体工具,跑个三五步就歪了,所以这点我特别在意。
第二,权限边界。发邮件、删文件、改合同、处理审批,这些高风险操作必须人工确认,不能让模型自己说了算。
第三,责任归属。AI 出错以后,谁负责?企业流程必须有日志、审批和回滚机制。官方安全信息显示,Gemini 3.5 Flash 相比 Gemini 3 Flash,在安全和语气方面整体表现更好,并保持较低的不合理拒答;但模型安全是一回事,产品流程设计又是另一回事。
Q:Gemini 3.5 Flash 的上下文是多少?
A:官方文档给出的最大输入为 1,048,576 tokens,最大输出为 65,535 tokens。可理解为约 100 万 token 输入、约 64K token 输出。
Q:Gemini 3.5 Flash 价格是多少?
A:按 Google Cloud Agent Platform 标准 Global 价格,输入为 1.50 美元/百万 token,输出为 9.00 美元/百万 token;Flex/Batch Global 价格为输入 0.75 美元/百万 token、输出 4.50 美元/百万 token。缓存输入、非 Global 区域和后续价格可能不同,实际以官方价格页为准。
Q:Gemini 3.5 Flash 和 GPT-4o 哪个好?
A:不能简单说谁绝对更好。GPT-4o 当初强在实时多模态交互和对话体验;但 OpenAI 官方帮助文档显示,GPT-4o 已于 2026 年 2 月 13 日从 ChatGPT 退役,但仍可通过 API 使用。若看长上下文、智能体工作流和企业高频调用,Gemini 3.5 Flash 的定位更直接。
Q:Gemini 3.5 Flash 现在可以用吗?
A:官方列出的分发渠道包括 Gemini App、Gemini Enterprise App、Gemini Enterprise Agent Platform、Google AI Studio、Gemini API、Google Search AI Mode 和 Google Antigravity。具体可用性取决于地区、账号和产品入口。
Q:Gemini 3.5 Flash和Gemini 3 Flash有什么区别?
A:Gemini 3.5 Flash 核心提升了智能体多步执行稳定性、代码逻辑推理和多模态理解精度,运行更高效稳定。
所以我对 Gemini 3.5 Flash 的判断是:它未必是最耀眼的模型,但很可能代表了下一阶段 AI 大模型的真实方向。
下一场竞争,比的不是谁更会聊天,而是谁更便宜、更稳定、更懂上下文,也更适合被塞进工作流。过去的 AI 大模型证明了自己会回答问题;接下来,它要证明自己真的能把事情办成。
你最想让 AI 先帮你搞定哪件琐事?整理会议纪要、读长报告,还是批量处理邮件?评论区聊聊。
欢迎关注 亨利笔记, 👍 点赞 | ⭐ 收藏 | ↗️ 转发。