首页
学习
活动
专区
圈层
工具
发布

Gemini 3.0 实测:迭代效率提升174%、正确率97%,DolphinDB AI Agent 迎来“跃迁时刻”!

基于研报复现因子,一直是研究员开拓思路、发掘新 Alpha 可能的常规手段之一。传统方式依赖研究员逐字研读、手动编码,耗时费力且容易遗漏。随着 AI 大模型的发展,业界开始尝试用 AI 自动复现研报,但大模型代码逻辑不准确、耗时长始终阻碍着这一应用从实验走向生产。

Starfish AI 研报分析助手是 DolphinDB 研发的智能研报因子挖掘与分析工具,其背后接入了综合性能较高的 DeepSeek 大模型,深度整合自然语言处理与量化投研业务逻辑,打通了【上传研报解析因子生成代码回测评价输出报告】全流程,为量化投研提供高效、精准的智能辅助。

Starfish AI 研报分析助手虽然有着不错的表现,但在实际上线生产的过程中,我们还是会遇到两个普遍性的问题:首先是迭代时间过长,此前的版本中,平均需6.8次迭代才能得到可运行代码;其次是生成代码的正确率不够高,只有20%是符合真实研报逻辑且能够运行的代码;再者,模型对研报语言的理解偏差导致部分因子被疏漏

随着 Gemini 3 在 11 月发布,Starfish AI 研报分析助手接入新模型后的表现也令人眼前一亮,我们挑选了20份覆盖不同风格的研报作为测试集,对因子复现、代码生成、准确度等核心能力进行测试,结果显示:在 Gemini 3 的加持下,Starfish AI 研报分析助手的因子代码跑通率(语法正确率)达到了97%,代码逻辑准确率达50%,模型的平均迭代效率提升了174%,较先前的大模型有了极大的提升。本文,我们带各位一探究竟。

Gemini 3 实测:Starfish AI 因子挖掘的效能跃迁

在 Starfish AI 研报分析助手中,用户可直接上传 PDF 研报,系统自动完成因子识别与代码生成。

我们选择了综合性能较好的 DeepSeek V3.1 为对比参照,在基于 DeepSeek V3.1 完成提示词和流程优化后,选取了20份样本外的研报(覆盖动量、价值、事件驱动等风格)作为测试集。在相同硬件环境、数据源、回测框架下,分别运行 Gemini 3 与 DeepSeek V3.1,记录因子挖掘成功率、迭代次数、代码正确率等多项核心指标。

测试结果:Gemini 3 在因子挖掘成功率与效率上全面领先

从测试结果来看,相较于 DeepSeek V3.1,Gemini 3 的引入在因子挖掘的"成功率"与"效率"两个核心维度均实现了显著突破:

•在因子覆盖完整性上,Gemini 3 识别出了20份研报中的247个因子,挖掘出研报中约96%(247/250)的因子,而 DeepSeek V3.1 仅识别出76%的因子。

•在代码生成层面,针对247个测试因子,Gemini 3 成功生成代码240个,成功率达97%,较 DeepSeek V3.1 的89%(172/192)提升近8个百分点,基本消除了"任务失败"的风险。

•在迭代效率上,Gemini 3 生成代码的平均迭代次数较 DeepSeek V3.1 的6.3次减至2.33次,效率提升174%

•在真实因子复现层面,从"能生成代码"到"能正确复现研报逻辑",中间隔着数据对齐、参数校准、逻辑校验等多重关卡。我们人工抽样15篇研报各一个因子进行测试,Gemini 3 实际成功率约50%,较 DeepSeek 约20%实现了巨大的突破。

深入细节观察,Gemini 3 的优势体现在"忠于原文"的严谨性上:在因子公式复现环节,它能更准确地复现研报中的数学表达,避免 DeepSeek 常见的"简化公式"倾向(如下图示例)。在代码复现时,Gemini 3 成功率更高且逻辑与研报高度一致,常见错误在于对部分 DolphinDB 函数的参数个数和入参形式不够熟悉,但通常在 1–2 次迭代内即可修复。

在极少数场景下,Gemini 3 会自行引入不必要的滚动窗口,或未能最优地使用mbeta、mcorr等 DolphinDB 内置函数,而使用复杂繁琐的计算步骤,对context by + interval这类精巧的分组逻辑理解也偶有偏差。对于这部分复杂公式的理解,仍需"人+AI"的协同模式——在量化投研中,人类专家需时刻守住创造性判断与风险校验的最后一道关卡。

Dlang 脚本代码生成:模型能力带来工具效果的提升

Starfish AI 研报分析助手的核心能力,在于将自然语言因子转化为高性能可执行的 Dlang 公式代码。DolphinDB 的脚本语言 Dlang 以其高性能和向量化计算著称,底层大模型的"理解-生成"能力直接决定了工具体验。

在换装 Gemini 3 后,我们对 Dlang 代码生成逻辑的正确率进行了严格的 Benchmark 测试。在 1481 个覆盖各类金融计算场景的测试问题中,相较 DeepSeek R1,Gemini 3 代码逻辑正确率从 17% 提升至 34%,这一跃升,正是 Starfish AI 性能突破的来源。简而言之,Gemini 3 有 1/3 的概率给出可直接运行的正确代码,其余情况也提供高度可用的逻辑框架。

需要强调的是,34%并非理论上限。随着 DolphinDB 将更多 Dlang 最佳实践、金融计算范式作为领域知识注入训练流程,该数字仍会持续攀升——工具的效率飞跃,本质上源于底层模型的“脑力”升级。

Starfish AI:“理解”的再进化

Gemini 3 的引入显著增强了 Starfish AI 研报分析助手的因子挖掘能力——其语义理解更深、代码逻辑更准、迭代效率更高。但这一功能仅是 Starfish AI 能力矩阵中的一个切面。Starfish AI 是 DolphinDB 面向量化投研构建的端到端解决方案,覆盖因子计算、评价分析、策略回测、绩效归因及工作流管理等核心环节,形成从因子研究到策略执行的完整闭环。在此基础上,其 AI 能力矩阵已实现因子代码自动生成、策略逻辑一键转化、数据分析脚本智能编写等智能化升级。

DolphinDB 与前沿大模型深度融合,使得量化研究的效率边界发生了实质性拓展。目前 Starfish AI 已面向专业金融机构开放试用,欢迎申请试用https://dolphindb.cn/product。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OO-r7cjVnfhX0THXlXFWNH9w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券