Fineuralab

Darwin Skill 优化指南

用 Darwin 式循环评估、改进、测试、保留或回滚 AI Skills。

长尾指南

适合谁阅读

适合想用证据改进 Skill 的维护者、agent 用户和开发者。

Skill 的改进应该靠证据,而不是感觉。Darwin 式优化把 Skill 当作持续进化的产物:运行任务、观察失败、修改、再次测试,只保留确实让结果变好的改动。

适合的场景

常见任务

  • 改进已有 SKILL.md。
  • 用同一组任务比较两个 Skill 版本。
  • 为工作流 Skill 创建回归集。
  • 判断什么时候应该回滚修改。

推荐流程

  1. 写 3 到 5 个代表性测试任务。
  2. 运行当前 Skill 并记录失败。
  3. 做一次聚焦修改。
  4. 用同一组任务再次运行,对比结果后再保留。

不适合这样使用

  • 没有测试集时不要一次改很多东西。
  • 不要因为改动看起来更聪明就保留。
  • 不要用脱离真实使用的例子优化 Skill。

相关 Fineuralab 页面

常见问题

应该测试什么?

用能代表真实工作流的任务,包括边界情况和过去失败过的例子。

什么时候应该回滚?

如果一个改动只改善单个例子,却伤害整体任务集或让行为更不可预测,就应该回滚。