SkillOpt是微软开源的Agent技能文档优化工具,创新性把深度学习训练逻辑迁移至文本领域,将skill.md视作可训练参数;依托轨迹分析输出编辑优化方向,借助文本学习率控制修改边界,搭配验证集门控筛选迭代方案,持续输出最优版本best_skill.md。

1、技能文档训练:
复刻神经网络完整训练逻辑优化skill.md,覆盖前向传播、反向传播、参数更新、验证门控全流程迭代。
2、有界编辑控制:
依托文本学习率约束修改幅度,规避语义大幅偏移、有效规则被覆盖等问题。
3、拒绝编辑缓冲:
缓存验证门驳回的优化方案,避免训练循环重复出现同类错误,提升迭代效率。
4、跨模型/工具链迁移:
单模型训练完成的技能文档,可无缝适配同系列轻量化模型、Codex与Claude Code等异构工具链、同类基准测试任务。
5、零部署开销:
最终输出文件仅300–2000 token Markdown文档,接入Agent不会新增任何推理调用成本。
1、标准化系统优化:
摒弃手动编写、试运行、凭经验修改的低效试错模式,提供量化可复现的技能迭代提升路径。
2、全域性能领先:
覆盖6套基准、7类目标大模型、3种执行工具链,共计52个评估单元,全部取得最优/并列最优结果。
3、大幅拉高Agent执行效果:
GPT-5.5综合指标平均提升23.5个百分点;ALFWorld场景下GPT-5.4-mini准确率由70.9%提升至85.8%。
4、一次训练多端复用:
产出的best_skill.md不受模型尺寸、Agent工具链、同类任务限制,可直接迁移复用。
1、安装依赖:
通过pip一键安装SkillOpt及配套依赖包。
2、API配置:
复制环境变量模板,填入OpenAI、Azure、Anthropic等大模型平台密钥完成鉴权配置。
3、数据集准备:
手动划分训练、验证、测试集,也可交由SkillOpt自动拆分数据。
4、启动迭代训练:
执行训练脚本,传入配置文件、教师模型与学生模型参数,自动迭代优化技能文档。
5、导出训练成果:
训练结束后,在输出目录获取最优文档best_skill.md与每一轮迭代快照。
6、快速部署:
将best_skill.md全文嵌入目标Agent系统提示词即可生效,无额外推理成本。