Codex 自主适配 Skill-Creator：自研 3 个迁移工具让 Codex/OpenCode 用上 5 大新功能

运维有术

发布于 2026-04-01 19:33:44

2.1K0

🚩 2026 年「术哥无界」系列实战文档 X 篇原创计划第 45 篇，Skills 最佳实战「2026」系列第 14 篇大家好，欢迎来到 术哥无界 | ShugeX ｜运维有术。
我是术哥，一名专注于 AI 编程、AI 智能体、Agent Skills、MCP、云原生、Milvus 向量数据库的技术实践者与开源布道者！ Talk is cheap, let's explore。无界探索，有术而行。

图 1：Skill-Creator 核心功能概览

你在用 Codex 或 OpenCode 管理 AI 技能时,可能遇到过这些问题：

修改了 skill，不确定是变好还是变差
模型更新后，skill 突然失效
想迁移到新平台，但手工改写太耗时
触发时机不准，要么乱触发要么不触发

这些问题的根源是同一个：skill 开发缺乏测试和度量机制。

Anthropic 刚发布的 Skill-Creator 大更新,引入了 5 个工程化功能，把手工调试变成了测试驱动开发。

但这次更新的核心功能高度绑定 Claude 生态，很多默认成立的前提在 Codex 和 OpenCode 上会失效。

我的做法是这样的：让 Codex 去分析新版本的 skill-creator 代码，看看到底哪些功能依赖 Claude 生态。Codex 分析后发现，核心评测链路确实高度依赖 claude -p 命令、.claude/commands 目录、present_files 和 subagent 等 Claude 专属机制。

然后 Codex 给出了改造方案：开发了 3 个迁移工具（init_skill.py、 quick_validate.py、 rewrite_skill.py），并用 ppt-maker 这个实际 skill 验证了改造效果——重写后的 skill 在 Codex 和 OpenCode 上运行正常，验证通过。

这套分析→改造→验证的思路，不仅解决了平台耦合问题，还让 Codex 和 OpenCode 用户也能用上官方的测试驱动开发方法论。

一、Skill-Creator 的 5 大新功能

这次更新的核心，是把软件工程的那套实践搬到 AI 技能开发里：测试、度量、对比、优化。

功能 1：测试和测量（Evals）

什么是 Evals：类似单元测试，定义测试提示词，描述好的结果，让 skill-creator 判断是否符合预期。

两大用途：

捕捉质量衰退模型更新时，上个月工作的 skill 可能突然异常。Evals 能在新模型上运行测试，提前发现问题。

举个例子：官方的 PDF skill 在处理非填表类表单时，表现不稳定——在没有预设字段引导时，很难把文本放到精确坐标。通过 Evals 隔离失败案例，发现问题根源，最终通过锚定定位到提取的文本坐标解决了这个问题。

了解模型进展如果你的 skill 是能力提升型（帮助 Claude 完成基础模型做不好的事），Evals 能告诉你：基础模型是不是已经学会这个技能了？

如果在在不加载 skill 的情况下也能通过测试，说明这个 skill 的技术方法已被吸收进模型的默认行为。这时候，skill 可以退役了。

功能 2：基准测试模式（Benchmark Mode）

追踪 3 个关键指标：

Eval 通过率：skill 是否达到预期
耗时：执行效率
Token 用量：成本控制

适用场景：

模型更新后运行，检查兼容性
skill 本身迭代后运行，对比改进效果

数据归属：测试和结果完全归用户，支持本地存储、仪表盘集成、CI 系统插入。

功能 3：多智能体并行（Multi-Agent Support）

解决的问题：

顺序运行太慢
上下文积累导致测试间干扰

解决方案：启动独立智能体并行运行 evals。每个智能体在干净上下文中工作，独立的 token 和时间统计。

效果：更快的结果，无交叉污染。

功能 4：对比智能体（A/B Testing）

对比场景：

两个 skill 版本对比
skill vs. 无 skill 对比

盲测机制：避免主观偏见，确保客观判断修改是否真正提升。

功能 5：触发器优化（Trigger Optimization）

解决的问题：

触发时机不准（误报或漏报）
description 和实际使用场景不匹配

解决方案：

分析 description vs. 示例提示词
提供编辑建议

实测效果： 6 个公开 skill 测试，5 个触发得到改善，成功率 83.3%。

图 2：测试驱动的 skill 开发闭环

二、核心洞察：两类 Skill，不同测试重点

Skill-Creator 识别出两类不同的 skill，测试重点也不同：

类型 1：能力提升型（Capability-Enhancing）

帮助模型完成原本做不到的事
测试重点：验证功能是否正常工作
例子：PDF 处理、Excel 操作

类型 2：偏好编码型（Preference-Encoding）

让模型按特定风格或规范工作
测试重点：确保风格一致性
例子：代码风格规范、文档格式要求

关键发现：如果能力提升型 skill 的功能已被基础模型吸收，就可以考虑退役了。

三、改造方案：3 个工具脚本

Codex 和 OpenCode 用户无法直接使用 Claude Code 的 skill-creator 插件，但可以通过 3 个迁移工具实现类似功能。

图 3：迁移工具使用流程

扳手 1：init_skill.py - 快速起骨架

一句话：让新建技能从手工拼接变成标准化动作。

关键改动：

名称统一规范化（kebab-case）
模板 frontmatter 使用显式字符串，规避 YAML 类型陷阱
可选创建 scripts/references/assets 目录

使用方式：

python scripts/init_skill.py my-new-skill

这会自动生成一个标准的 skill 目录结构：

my-new-skill/
├── SKILL.md           # 核心定义
├── reference.md       # 参考资料（可选）
├── scripts/           # 工具脚本（可选）
└── assets/            # 静态资源（可选）

扳手 2：quick_validate.py - 无依赖优先的校验器

一句话：把环境依赖导致的偶发失败变成默认可运行。

关键改动：

支持 PyYAML 缺失时降级解析
校验 name/description 类型与命名规则
保留兼容字段白名单，避免误伤扩展场景

使用方式：

python scripts/quick_validate.py skills/my-new-skill/SKILL.md

即使你的环境没有安装 PyYAML，这个脚本也能正常工作——它会用正则表达式解析 YAML frontmatter。

扳手 3：rewrite_skill.py - 把旧技能迁成新范式

一句话：把人工逐段改文档变成可批处理的迁移管道。

关键改动：

复制原技能后自动改写 frontmatter
清理平台专属语句（如 claude -p、.claude/commands、present_files、subagent 指令）
附加 Runtime Compatibility 说明，明确迁移状态

使用方式：

python scripts/rewrite_skill.py old-skill new-skill-codex

这会把 old-skill 复制为 new-skill-codex，并自动清理所有平台专属依赖。

四、实战案例：ppt-maker 重写

改造不是停留在文档层，而是已经具备可执行 + 可验证 + 可复用的最低工程闭环。

迁移目标

把原 ppt-maker 迁移为 ppt-maker-codex，使其能在 Codex/OpenCode 环境运行。

迁移步骤

步骤 1：使用 rewrite_skill.py 迁移

python scripts/rewrite_skill.py ppt-maker ppt-maker-codex

步骤 2：使用 quick_validate.py 校验

python scripts/quick_validate.py skills/ppt-maker-codex/SKILL.md

验证结果

✅ skill-creator-codex 校验通过
✅ ppt-maker-codex 校验通过
✅ 初始化脚本 smoke test 通过

结果文件：

结果技能：skills/ppt-maker-codex/SKILL.md
迁移标记：明确标注 Runtime Compatibility

改造前后对比

维度	改造前	改造后
平台耦合	单一生态流程	跨工具可复用流程
环境脆弱性	依赖齐全才能跑	默认可跑
迁移成本	人工改写	脚本化重写 + 校验

图 4：改造前后三维对比

五、安装和使用指南

Claude Code 用户

安装方式：

/plugin install skill-creator@claude-plugin-directory
# 或者
/plugin > Discover

使用流程：

在 Claude Code 中调用 /skill-creator
按照交互式提示创建或修改 skill
使用 Evals 测试 skill 效果
通过 Benchmark 追踪性能指标

Codex/OpenCode 用户

安装方式：使用改造后的 skill-creator-codex，克隆仓库到本地。

创建新 Skill：

python scripts/init_skill.py my-new-skill

校验 Skill：

python scripts/quick_validate.py skills/my-new-skill/SKILL.md

迁移旧 Skill：

python scripts/rewrite_skill.py old-skill new-skill-codex

使用示例：

@skill-creator-codex 请帮我创建一个新的 skill，用于生成 PPT

**关键点**：
- `name` 和 `description` 是必需字段
- `name` 使用 kebab-case 命名
- `description` 要精准，避免触发器误判

总结

这次 Skill-Creator 更新的核心价值，是把软件开发的严谨性引入 AI 能力构建。

核心价值

从手工艺术到工程实践：

Evals：让 skill 质量可验证
Benchmark：量化性能追踪
多智能体：更快、更干净的并行执行
A/B 测试：客观对比版本效果
触发器优化：83.3% 的成功率

Codex/OpenCode 适配要点

三大改造：

去平台耦合：清理 Claude 专属依赖
降低环境脆弱性：支持降级解析，默认可运行
脚本化迁移：三个工具脚本实现标准化流程

最佳实践建议

从评估开始：不要试图预先猜测所有需求。让 Claude 在实际场景中告诉你它需要什么。

为扩展而结构化：当 SKILL.md 变得笨重时，拆分内容到单独文件。如果某些上下文互斥或很少一起使用，保持路径分离以减少 token 用量。

从 Claude 的角度思考：监控 Claude 在实际场景中如何使用你的 skill。基于观察迭代，特别关注 skill 的 name 和 description——这是触发判断的关键。

安全注意事项

只从可信来源安装 skills。

从较少信任的来源安装时：

使用前彻底审计
阅读 skill 中捆绑的文件内容
特别注意代码依赖和捆绑资源
注意指示 Claude 连接外部网络源的指令

实际应用场景

Rakuten（财务工作流）：处理多个电子表格，捕获关键异常，使用组织的程序生成报告。将原本需要 1 天的工作缩短到 1 小时。

Box（内容转换）：将存储文件转换为符合组织标准的演示文稿、电子表格、Word 文档，节省数小时工作量。

Canva（设计平台）：解锁将 Canva 更深入带入 agent 工作流的新方式，帮助团队捕获独特上下文，轻松创建高质量设计。

这次更新让 skill 开发告别了草台班子时代。对于已经在用 Claude Code、Codex 或 OpenCode 的开发者来说，建议与其折腾复杂的第三方工具，不如学好 skill 创建——这是日常工作非常有用的大杀器。

相关资源

官方博客：https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills

GitHub Plugin 仓库：https://github.com/anthropics/claude-plugins-official/tree/main/plugins/skill-creator

GitHub Skills 仓库：https://github.com/anthropics/skills/tree/main/skills/skill-creator

好啦，谢谢你观看我的文章，如果喜欢可以点赞转发给需要的朋友，我们下一期再见！敬请期待！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-07，如有侵权请联系 cloudcommunity@tencent.com 删除

开发

本文分享自运维有术微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度