

本月,SCALE 测评榜单新增纳入 DeepSeek-V4-Pro、DeepSeek-V4-Flash、GPT-5.5 和 Claude Opus 4.7 四款最新模型。本次评测继续聚焦 SQL 理解、SQL 优化和方言转换三大核心维度,通过统一榜单和子指标数据,呈现最新模型在企业级 SQL 场景中的能力表现与选型价值。
从本期新增模型看,GPT-5.5 在 SQL 理解维度表现最突出,Claude Opus 4.7 综合能力更均衡;DeepSeek 系列两款模型在国产数据库转换子指标上表现亮眼,但复杂 SQL 理解、深度优化和大 SQL 转换仍有提升空间。
核心看点速览:
本次评测严格遵循 SCALE 框架的三大核心维度和统一评测数据集,确保所有模型均在同等标准下进行评估,保障评测结果的公正性和可复现性:
1. 能力定位判断
GPT-5.5 是本期新增模型中 SQL 理解能力最突出的模型,SQL 理解维度进入总榜前列。其优势集中在执行准确性和语法错误检测,SQL 优化和方言转换也保持在可用区间,整体适合作为综合型 SQL 开发辅助模型。其三大能力维度得分见图 1。

图 1:GPT-5.5 能力维度评分
2. 核心维度分析
SELECT student_name FROM students WHERE student_id IN (...) 的投影下推案例中,期望仅移除内层未使用的 gender 列,模型却输出 SELECT student_name FROM students;,直接丢失 IN 过滤条件,说明其在执行优化规则时存在“改写过头”的风险。
(2)联合索引字段顺序判断不稳定:在 SELECT * FROM products WHERE category_id = 5 AND is_imported = 1 AND stock < 10 案例中,期望索引顺序为 category_id, is_imported, stock,模型给出 is_imported, category_id, stock,未严格遵循等值列按选择性排序、范围列后置的要求。SP_BULK_UPDATE_INVENTORY 存储过程转换中,源过程包含记录类型、批量集合、游标循环和事务控制逻辑,模型将其改写为 RETURNS void 的函数版本,并在默认时间、record 类型和批量处理结构上出现多种候选写法不一致,说明长过程化 SQL 转换仍需要分段验证。3. 应用价值建议
1. 能力定位判断
Claude Opus 4.7 是本期新增模型中综合表现最均衡的一款,SQL 优化和方言转换均进入总榜前列。相较于单点能力突出的模型,它更适合需要稳定覆盖 SQL 审查、优化建议和迁移辅助的复合型场景。其三大能力维度得分见图 2。

图 2:Claude Opus 4.7 能力维度评分
2. 核心维度分析
IN (SELECT student_id FROM (...)) 的查询直接简化为 SELECT student_name FROM students;,期望行为只是下推投影、去除冗余列,而不是删除过滤条件。这类问题说明模型在复杂查询重构中更容易追求简洁形式,仍需用逻辑等价校验兜底。LFBB_BVC_VHG_CHECK 长存储过程转换中,模型输出出现过程名与 END 标识不一致、TO_CHAR(SYSDATE, ...) 与 TO_CHAR(SYSDATE(), ...) 写法摇摆的问题;SQLServer → GaussDB 的 sp_GetCustomerOrders @CustomerID nchar(5) 案例中,模型一度将参数绑定错误改写为 CustomerID = CustomerID,容易造成语义失真。3. 应用价值建议
1. 能力定位判断
DeepSeek-V4-Pro 是 DeepSeek 本期新增的思考型对话模型,模型介绍为 1.6T total / 49B active params。从评测结果看,其 SQL 优化和方言转换表现明显好于 SQL 理解,更适合作为优化和迁移场景的辅助模型,而非复杂 SQL 理解主力。其三大能力维度得分见图 3。

图 3:DeepSeek-V4-Pro 能力维度评分
2. 核心维度分析
SELECT task_name, due_date FROM tasks WHERE completed = FALSE AND due_date < '2024-06-07' 案例中,期望返回 select 结果集,模型将结果类型标为 table_state;在 INSERT INTO products (...) VALUES (...) 的执行计划案例中,期望 type = ALL,模型将 type 留空,反映出对非 SELECT 语句执行计划字段的建模不稳定。SELECT student_name FROM students WHERE student_id IN (...),期望只是下推投影、移除内层冗余 gender 列,模型输出 SELECT student_name FROM students;,说明复杂规则组合场景中存在过滤条件丢失风险。bulk_delete_by_ids 动态删除过程转换中,源过程通过 EXECUTE IMMEDIATE 拼接 DELETE FROM logs WHERE log_id IN (...) 并显式 COMMIT,模型改写为 PostgreSQL 函数后丢失事务提交语义,说明对过程化代码中的事务边界处理不够稳定。3. 应用价值建议
1. 能力定位判断
DeepSeek-V4-Flash 是 DeepSeek 本期新增的轻量高效思考型对话模型,模型介绍为 284B total / 13B active params。其 SQL 理解表现明显优于 SQL 优化和方言转换,更适合轻量 SQL 理解和语法辅助场景。其三大能力维度得分见图 4。

图 4:DeepSeek-V4-Flash 能力维度评分
2. 核心维度分析
INSERT INTO products (product_id, product_name, price) VALUES (...) 案例中,期望识别为 INSERT 且 type = ALL、无 Extra,模型却输出 rows = 0、Extra = No tables used,说明其对非查询类 SQL 的执行计划字段容易套用普通 SELECT 的解释习惯。LIKE 'Advanced %' 前缀优化;在 WHERE CONCAT("id_", student_id) >= "id_1000" 案例中,模型直接改写为 student_id >= 1000,忽略字符串拼接后的字典序语义,导致结果不等价。SP_BULK_UPDATE_INVENTORY 转换中,源过程包含记录类型、批量集合和游标循环,模型在 TYPE t_inventory_rec IS RECORD、CURRENT_DATE 默认值和批量处理结构上生成不一致版本;SQLServer → GaussDB 的 IF NOT EXISTS (...) CREATE TABLE Logs (...) 案例中,模型输出 SELECT FROM pg_tables 这类不完整查询结构,存在直接执行失败风险。3. 应用价值建议
本章节呈现 SCALE 测评框架在 SQL 理解、SQL 优化和 SQL 方言转换三大核心维度上的最新综合榜单数据。本月评测数据覆盖 33 款模型,其中新增的四款模型均已纳入统一榜单。
当前榜单中,Gemini 3 Pro 以 86.0 分位列 SQL 理解能力榜首,SQLFlash 以 72.1 分位列 SQL 优化能力榜首,SQLShift 以 83.4 分位列 SQL 方言转换榜首。
SQL 理解维度衡量模型对 SQL 语义、执行计划和语法规范的综合理解深度,具体榜单见图 5。

图 5:SQL 理解能力榜
SQL 优化维度考察模型在逻辑等价改写、深度优化策略、索引建议和语法纠错方面的综合能力,具体榜单见图 6。

图 6:SQL 优化能力榜
方言转换维度评估模型在不同数据库方言间进行语法迁移和逻辑重构的准确性,具体榜单见图 7。

图 7:SQL 方言转换榜
本月新增的四款模型在 SQL 能力上呈现出清晰分层:GPT-5.5 更偏向强 SQL 理解,Claude Opus 4.7 更偏向综合稳定,DeepSeek-V4-Pro 适合优化和迁移辅助,DeepSeek-V4-Flash 则更适合轻量低成本场景。
SCALE 将持续关注大模型技术发展,不断优化评测体系,为用户提供客观、全面的模型能力评估参考。
欢迎访问 SCALE 官方平台,查看更详细的评测数据和报告,或体验模型测评实验室,进行专属定制化测评。
数据截止时间:2026年4月评测周期