如何实现自我进化的 AI 的 Skills?

有没有办法能让 ai 自进化,例如实现下面这个需求我需要使用 playwright-cli + playwright skills 对一个程序进行测试我告诉他需要测试这个页面或者说爬取某些数据假设这个平台为 B 站然后我需要获取 B 站热搜条目的前十个视频的链接

第一次通过语义识别并自动保存为 skills 或者脚本

第二次相同目标直接运行该 Skill 并对每次操作进行综合评分并计算总评分

第三次运行 skills 或者脚本如果出现意外情况需要降级到下面

实现: 如果出现错误的操作重新实现操作如果存在更优秀的操作记录该操作如果出现没必要的操作就删除该操作

统计分析: 完成后重新计算每步评分和总评分并判断是否需要更新 Skill

错误回滚: 无法完成该步骤就会回滚到该步骤评分最高方法如果还无法完成就会回滚总评分最高的 skills

主要实现目标 Skill 复用执行过程评分反馈优化 Skill 失败回滚 + 策略选择自我进化

期望是能支持本地 cli 直接调用例如使用 claude -p "/playwright-cli xxxx" 去安全沙盒执行同时支持多种 cli 做出来的 skill 需要支持版本管理和可复用跨平台使用这里会使用到多 skills 怎么让他读取完全部上下文而不丢失实现持久化对话和支持给 skills 扩充功能需要返沪数据提取并持久化支持定时任务去执行某个任务

johnsun0821

1 天前

你的这个思路，其实就是 hermes agent 的实现逻辑呀，强化了自我反思和持续运行机制。
实现逻辑
用户交互 → 工具调用 → 任务完成
↓
自主技能创建 → 技能自我改进
↓
持久化记忆 (MEMORY.md, USER.md)
↓
FTS5 会话搜索 + LLM 摘要
↓
Honcho 辩证式用户建模
↓
下次对话：注入记忆 + 用户模型 → 更好的响应

Zephyrrr2333

1 天前

<amp-youtube data-videoid="s9Cs_RmkVPg" layout="responsive" width="480" height="270"></amp-youtube>
这段视频介绍了 TanStack AI Code Mode ，一种优化应用中 LLM 工具调用的新方式。传统的工具调用方法往往效率不高，导致上下文占用高，并且需要多次往返服务器（ 0:00 - 1:56 ）。
Code Mode 的主要特性包括：
**基于 TypeScript 的执行：**
Code Mode 不再强制让 LLM 直接调用工具，而是让 LLM 生成 TypeScript 代码，然后在隔离环境中执行（ 2:03 - 2:36 ）。对于数据处理和计算这类任务，这种方式明显更快，也更准确（ 2:38 - 3:14 ）。
**性能提升：**
视频展示了在执行复杂任务（例如计算产品的平均成本）时，LLM 调用次数大幅减少（从 4 次降到 2 次），上下文使用量也显著下降（从 9.8KB 降到 1.7KB ）（ 2:38 - 2:50 ）。
**Code Mode Skills：**
这一功能允许 LLM 保存并复用它生成过的有价值代码片段，把它们转化为可重复使用的技能。对于重复性任务，这会进一步提升性能（ 4:35 - 5:43 ）。
**广泛的能力：**
Code Mode 可以与多种后端集成，包括数据库，用于生成 SQL 和动态 UI 组件，从而动态处理复杂的报表任务（ 5:48 - 7:10 ）。
Jack Herrington 鼓励开发者克隆 TanStack AI 的 monorepo ，亲自探索这些功能，包括数据库集成和动态 UI 示例（ 7:13 - 7:40 ）。