企业落地 AI Skill 的 12 个疑问

企业落地 AI，常见路径是 Prompt → RAG → AI 应用，复杂度依次递增。Prompt 灵活但不稳定，RAG 能接入知识库但工程量大，AI 应用功能完整但开发周期长、维护成本高。Skill 提供了一种介于 Prompt 和 AI 应用之间的务实选择：把反复出现的任务流程写成结构化文件，让 AI 按统一标准执行。它不依赖硬编码，是企业落地 AI 的一条轻量路径。

目前，企业内 Skill 落地仍在探索阶段。本文整理了实践中 12 个典型疑问及当前应对思路，供参考。

Skill 是什么？

Q1: Skill 到底是什么？和 Prompt、MCP、AI 应用有什么区别和联系？

Q2: 企业内部哪些场景适合用 Skill？

Skill 怎么建？

Q3: 不用 Claude，用其他模型落地效果差多少？怎么补救？

Q4: Skill 该让业务专家写，还是技术人员写？

Q5: Skill 文件存哪儿？需要像代码一样管版本吗？

Q6: 多语言/跨国团队，Skill 要分语言建吗？

Q7: Skill 需要测试吗？怎么测？

Skill 怎么用？

Q8： Skill建好了怎么让用户发现并愿意用？

Q9： Skill 多了会不会识别错乱？怎么解决？

Skill 怎么管？

Q10：Skill 需要监控和错题本吗？怎么持续优化？

Q11：Skill 可能改数据，怎么管权限保安全？

Q12：怎么避免 Skill 三个月热度，确保投资收益？

Part 1：是什么

❓ 1：Skill 到底是什么？和 Prompt、MCP、AI 应用有什么区别和联系？

Skill是什么

Anthropic Skill 是可复用的结构化指令集，采用“渐进式披露”架构，Claude 先只加载各个 Skill 的元数据（名称、描述等关键字段），等用户的任务意图匹配时，才拉取完整内容。这种设计让 Skill 成了嵌在对话流中的“智能顾问”，能自动发现并应用背景知识，在不超出上下文限制的情况下，输出更符合用户意图的结果。

从结构上看，Skill 不是“更长的 Prompt”或 Prompt 模板，而是一个完备的能力单元。一个标准的 Skill 通常包含：

任务边界：解决什么问题、不处理什么情况
输入/输出契约：参数、格式、结构约定
执行指令：任务步骤和判断条件
知识上下文：领域术语、规则文档、示例
工具调用：检索、表格处理、外部 API（可选）
校验机制：格式检查、规则核对
版本管理：CHANGELOG + 语义化版本号（参见疑问 5）

所以，Skill 的核心不是提示词技巧，而是把经验固化成可调用、可迭代、可治理的能力模块。

Skill vs. Prompt vs. MCP vs. AI应用

概念	本质	存在形式	核心作用
Prompt	单次指令	自然语言文本	告诉 AI"这次做什么"
Skill	可复用的结构化知识包	SKILL.md 文件 + 可选脚本	告诉 AI"这类事怎么做"，在支持的平台上 AI 可自动判断何时调用
MCP	连接外部系统的标准协议	协议规范 + Server/Client 实现	让 AI 能查到外部数据、能操作外部系统
AI 应用 / Agent	完整软件系统（含任务编排层）	前后端 + 数据库 + 模型编排	把 AI 嵌入业务流程，其中 Agent 负责任务编排与调度，支持审计和管控

Prompt 用一次写一次；Skill 写一次可反复用，在 Claude 等原生支持的平台上，AI 能自动判断是否调用（其他模型需要自建路由）；MCP 不管业务逻辑，只负责连接外部系统；AI 应用是完整的工程方案，Agent 是其中专门负责任务编排的能力层，本文不做区分。

Skill 与 Prompt， MCP，AI 应用之间的联系

用户说："分析一下客户 12345 的健康度，如果风险高就创建跟进工单"

        │
        ▼
    [调度层] 识别意图，匹配"客户健康度分析"Skill
        │
        ├─→ 步骤 1：调取客户数据 ──→ [MCP] 查询 CRM 系统
        │
        ├─→ 步骤 2：分析评分 ────→ [Skill] 按内置规则计算
        │
        ├─→ 步骤 3：判断风险 ────→ [Skill] 评分<60 且 工单>2 则高风险
        │
        └─→ 步骤 4：创建工单 ────→ [MCP] 调用 Jira API
                                    │
                                    ▼
                            [AI 应用] 在飞书/自建系统展示结果
                                    │
                                    ▼
                            遇到流程未覆盖的异常情况 
                                    │
                                    ▼
                            [Prompt] 人工介入处理

案例 1：企业简历批量筛选与初评

某企业 HR 每天需要处理上百份格式各异的简历，流程涉及从招聘系统获取简历、解析内容、根据岗位要求评估匹配度、生成初评意见并录入系统。如果用 Agent + Skill + MCP 的方式拆解：

环节	负责方	具体动作
任务统筹	Agent	将"处理新投递简历"拆解为读取、解析、评估、回填等有序步骤
简历获取	MCP	对接内部 ATS 或招聘平台，批量获取新投递的候选人简历
内容解析与评估	Skill + LLM	"简历解析 Skill"统一提取关键经历；"岗位匹配度评估 Skill"提供用人标准和打分规则，LLM 完成综合评定
结果回填与跟进	Skill + MCP	"候选人触达 Skill"生成模板化话术，MCP 对接系统更新候选人状态并发送邮件

案例 2：企业合同法务预审流程

业务线提交商务合同后，法务需要核对付款条款、违约责任等，确保符合公司底线。使用协同架构的拆解方式：

环节	负责方	具体动作
任务调度	Agent	接收合同审查请求，识别合同类型（采购/销售/保密等），规划审查顺序
外部尽调查询	MCP	调取企业信用查询系统，核验合同相对方的工商状态和涉诉风险
规则匹配与预审	Skill + LLM	"合同审查 Skill"提供公司的标准账期、违约金上限等判定规则，LLM 找出不合规处
报告生成与流转	Skill + MCP	"审查报告 Skill"提供报告结构和措辞规范，MCP 对接 OA 系统将修改建议推回给业务侧

小结：在分工上，Agent 决定做什么、按什么顺序做；Skill 提供环节执行方法和质量标准；MCP 负责连接外部系统，完成数据读写。在没有完整 Agent 能力的场景下，Skill 和 MCP 仍可单独或组合使用，由人工代替 Agent 统筹调度。

❓ 2：企业内部哪些场景适合用 Skill？

Skill 适用的场景条件

每周出现 3 次以上
有明确的SoP、判断标准和输出格式，不能靠"感觉"
多人要做同样的事，目前大家做得参差不齐
出错成本可控，人工能复核，不涉及资金或合规红线
不强依赖外部系统实时数据，需实时数据的场景通常要配合 MCP

Skill， Prompt， MCP和 AI应用的各自适用场景

场景特征	Prompt	Skill	MCP	AI 应用
探索性任务例：市场趋势脑暴、产品命名	✅ 灵活发散，适合试错	❌ 限制过多	❌ 无需外部数据	❌ 太重
一次性任务例：临时格式转换、特定邮件	✅ 成本低	❌ 建 Skill 比直接问还麻烦	❌ 无需系统连接	❌ 不值当
高频重复知识工作例：财务月报、SEO 检查	❌ 每次写 Prompt 不一致	✅ 标准化输出	❌ 无实时数据需求	❌ 过度设计
需实时数据的分析例：查库存、查客户 360	❌ 拿不到实时数据	⚠️ 单独用不行，需配合 MCP	✅ 查 ERP/CRM 实时数据	✅ 集成展示
触发系统操作例：创建工单、更新状态	❌ 无权限	⚠️ 需配合 MCP	✅ 调用 API	✅ 自动完成流程
高风险决策例：金融审批、医疗诊断	❌ 无审计	❌ 无完整审计链路	❌ 仅连接，无风控	✅ 审计、人工节点、版本回滚
嵌入现有系统例：飞书审批、ERP 插件	❌ 只能在对话框用	❌ 无界面能力	❌ 仅数据层	✅ 完整前端集成

说明：表格中的标记指单独使用时的适用性。实际场景中 Skill + MCP 组合使用是常见模式，比如用 Skill 定义分析流程，用 MCP 拉取实时数据。

Part 2：怎么建

❓ 3：不用 Claude，用其他模型落地效果差多少？怎么补救？

能力差异对比

能力	Claude 原生 Skills	其他模型（Kimi/Qwen/DeepSeek 等）
自动识别	原生支持，通过 Skill 的核心描述字段自动匹配意图	需自建路由（我们实测准确率约 85%，17 个 Skill，100 条测试）
Token 消耗	按需注入当前调用的 Skill 内容，而非全部 Skill；结合 Anthropic 的 Prompt Caching 可进一步降低重复前缀的 token 成本	通常需全量加载 Prompt，暂无按需注入机制
脚本执行	内置沙箱	需自建或接入如 Docker、E2B 等代码执行沙箱
输出稳定性	结构化约束较强	依赖 Prompt 工程，容易漂移

补救思路：自建 Skill 路由

# 简化版 Skill 路由的工作流程描述（面向非技术人员）
路由注册表:
  可用服务清单: 
    - 财务报告
    - 客户健康度分析
    # ... 系统中登记的核心场景，类似于派单专员手里的“业务黄页”

路由作业流程:
  步骤1_服务发现与匹配:
    输入: 用户的自然语言请求
    匹配动作: 
      - 【方案 A】外接一个小巧便宜的 AI 模型专门负责意图打标签和分类
      - 【方案 B】提取请求关键词，去“可用服务清单”中做相似度匹配（当前实测性价比最高）
    输出: 智能锁定最对口的“目标 Skill”
    
  步骤2_工作指令组装:
    读取: 从系统中偷偷抽出该目标 Skill 身后的“专业处方模板”
    拼接: 将“专业处方”和“用户刚才的具体提问”揉合拼接在一起
    输出: 生成一段精确、充实、不缺漏上下文数据的系统指令
    
  步骤3_模型推演与沙箱保护:
    生成答复: 将上述组装好的饱满指令正式发送给主力大模型（如 Kimi、DeepSeek 等）去干活
    安全沙箱: （可选兜底保障）如果返回的答复中带有需要运行的数据处理代码，绝不能直接跑。
              系统必须将其扔进完全隔离的“安全沙箱”环境中试运行，切断搞坏系统的可能。
    交付落库: 最终将干净、加工好的分析结论呈现给终端用户

取舍提示：

不追求与 Claude 完全一致，先保障核心 Skill 的识别准确率
Skill 总量控制在 20 个以内，降低路由复杂度
Prompt 与业务逻辑解耦，后续如果切换模型，迁移成本可控

❓ 4：Skill 该让业务专家写，还是技术人员写？

我们试过三种模式，目前用的是第三种：

模式	做法	结果	原因
业务自建	培训业务人员按模板写	8 个里 6 个不能用	步骤描述太泛或跳跃，缺少 AI 执行所需的判断条件和输出格式约束
技术代建	技术人员访谈后代写	功能能跑但业务不爱用	缺少业务侧的隐性知识，比如"这个异常要人工判""数字要四舍五入"
双人配合（当前采用）	业务讲流程，技术写实现，共同测试	可用且业务愿意用	各出擅长的部分

双人配合的具体分工：

阶段	业务负责	技术负责	耗时
需求澄清	口述现状、步骤、判断标准	倾听，追问细节	2h
流程固化	确认流程图	画流程图，写检查清单	4h
Skill 编写	审阅	写 SKILL.md，设计关键词	4h
测试调优	用真实案例跑 10 轮，标记偏差	修复，调描述	8h
上线运营	推广，收集反馈	监控，迭代	持续

建议每个部门培养 1-2 名"AI 翻译官"：既懂业务流程，又理解 AI 的能力边界，负责筛选需求和质量把关。

❓ 5：Skill 文件存哪儿？需要像代码一样管版本吗？

存储位置：Git 仓库，和普通代码同级管理。

目录结构：

skills-repo/
├── 财务/
│   ├── 月度报告/
│   │   ├── SKILL.md              # 当前版本（只读）
│   │   ├── CHANGELOG.md          # 变更记录：改了什么、为什么改
│   │   ├── test-cases/           # 黄金测试用例
│   │   │   ├── case_001.yaml
│   │   │   └── case_002.yaml
│   │   └── versions/             # 历史版本归档
│   │       ├── v1.0.0_20250115.md
│   │       ├── v1.1.0_20250320.md
│   │       └── v2.0.0_20250610.md  # 格式变更，影响下游解析
│   └── 预算审查/
├── 销售/
│   └── 客户健康度/
└── 研发/
    └── 代码安全审查/

版本规则：

变更类型	版本号变化	审批要求	通知范围
改描述、加例子	v1.1.0 → v1.1.1	技术审	无
改步骤、换判断标准	v1.1.0 → v1.2.0	业务+技术双审	使用该 Skill 的团队成员
改输出格式、影响下游解析	v1.2.0 → v2.0.0	三审（加合规）	全量用户+下游系统负责人

我们踩过一个坑：更新了财务 Skill 的输出格式但没通知下游，导致依赖该格式的 Python 解析脚本报错，影响了月度关账。之后强制要求：输出格式变更必须走大版本升级，提前 3 天通告。

❓ 6：多语言/跨国团队，Skill 要分语言建吗？

我们的做法：核心英文 + 区域变体

核心 Skill（英文，逻辑层）
    │
    ├── 中文变体（描述、示例本地化）
    │       └── 关键词双语："客户健康度分析 / Customer Health Analysis"
    │
    ├── 日文变体
    │       └── 遵守当地个保法等数据合规要求
    │
    └── 德文变体
            └── GDPR 数据脱敏规则集成

分两层管理：

通用层：跨地区一致的流程，如数据分析算法与计算逻辑
区域层：本地化合规要求和术语差异，如国内个保法与欧盟 GDPR 间的脱敏规定

技术团队用英文编写 Skill 保障底层逻辑一致，业务团队用本地语言交互。只保留关键描述字段为英文以方便模型识别。

❓ 7：Skill 需要测试吗？怎么测？

分阶段测试：

阶段	方式	通过标准	投入
MVP	人工跑 10-20 个典型案例	业务认可输出质量	2-3 人天
推广前	建立黄金测试集（50-100 例），半自动验证	准确率 >85%，格式 100% 合规	1-2 人周
成熟后	自动化测试：输入 → Skill → 输出 → 自动比对	失败率 <5%，定期自动跑	持续

黄金测试集示例（YAML 格式）：

# test-cases/case_001_high_risk.yaml
id: 001
desc: "高活跃但高投诉客户应标中风险"
input:
  customer_id: "12345"
  login_count: 25
  ticket_count: 4
  ticket_sentiment: "negative"
expected:
  health_score: 65
  risk_level: "中"
  action: "本周内主动触达，了解投诉详情"
  must_contain: ["投诉", "主动触达", "65"]
  must_not_contain: ["健康", "无需关注", "低风险"]
  
# test-cases/case_002_error_handling.yaml  
id: 002
desc: "客户 ID 不存在时应报错提示"
input:
  customer_id: "99999"
  error_simulation: true
expected:
  behavior: "error_graceful"
  output_should: "提示检查 ID"
  output_should_not: "崩溃/空指针/乱码"

自动化测试脚本：

# 简化版自动化测试工作流描述（面向非技术人员）
自动化测试流水线:
  执行频率: 每天凌晨自动对核心 Skill 测一遍，新版本发布前必须测一遍
  
  流水线作业步骤:
    步骤1_发送考题:
      动作: 批量调取当前 Skill 的“黄金测试集”（比如 100 道极端、易错的考题）
      执行: 逐一扔给 AI 去处理，不带任何人工干预
      
    步骤2_机器阅卷:
      格式体检: 检查 AI 交上来的卷子是不是标准的格式（例如必须是结构化的 JSON）
      得分点扫描: 核验答卷里是否必须包含了“指定关键词”（比如高风险等级的触发词）
      踩雷点排查: 核验答卷里绝对不能出现“违禁词”（比如明明有投诉，却不准出现“健康”）
      
    步骤3_巡检报告与飞书报警:
      评估: 汇总最终的批改成绩，计算总体不合格率
      处罚: 如果 100 道题里有超过 5 道答错（即错误率 > 5%）
      通知: 立马拉响警报，并在群里强行 "@该 Skill 的业务和技术负责人" 要求去修错题

补充说明：关键词断言适合格式和关键信息的检查，但对于主观性较强的输出（比如分析报告的行文质量），可以考虑用另一个模型做主观评判，按预设的评分标准打分。这部分我们还在试验中。

Part 3：怎么用

❓ 8：建好了怎么让用户发现并愿意用？

可通过三个层面引导：

1. 发现层：主动推送，不依赖用户搜索

按角色推：财务登录飞书，首页工作台直接展示财务相关的 Skill
按场景推：检测到用户上传 Excel，提示"是否用【数据分析 Skill】？"
按热度推：展示"同部门同事本周在用"（不显示具体内容）

2. 使用层：上手门槛尽量低

用户输入："分析一下这个月的销售数据"
        │
        ▼
系统提示："将使用【销售数据分析 Skill】，包含：趋势分析、环比、异常检测"
        │
        ├─→ 用户确认：执行
        └─→ 用户切换：展示其他可选 Skill 或转人工
        │
        ▼
输出结果（附分析依据的说明）

3. 引导层：在使用中学习

首次使用时，侧边栏展示 Skill 能做什么与不能做什么的能力边界
提供"示例输入"一键填充，降低启动门槛
输出旁标注分析依据，如"因工单情绪为负面，风险等级上调"

❓ 9：Skill 多了会不会识别错乱？怎么解决？

遇到的问题：Skill 从 5 个增到 20 个后，开始出现错配，比如该调"客户健康度分析"却调出了"客户画像生成"。

五个应对办法：

办法	具体做法	效果
合并相似 Skill	把"客户画像"和"客户标签"合并为"客户 360 分析"	从 20 个减到 17 个，错配率下降
优化描述字段	不用"帮助分析客户"，改为"客户健康度分析：汇总登录频次、工单数量与情绪、合同到期时间，输出健康评分和建议动作"	匹配更准确
分层路由	先按财务、销售等用户角色缩小范围，再按关键词匹配	减少跨领域误匹配
引入“宏 Skill”编排	(新增) 面对复杂请求时，不直接暴露所有底层能力。而是构建一个“总控调度 Skill”（宏 Skill），它只负责理解复杂意图，然后再自动分发和串联多个底层的“微 Skill”去干活	像“包工头”一样把任务拆解分发，有效避免了扁平式匹配带来的上下文爆炸和能力相互打架的乱象
支持手动指定	支持 `@财务报告` 或快捷指令 `/finance-report`	自动识别不准时可人工兜底

描述字段优化前后对比：

# 优化前
description: "帮助财务同事生成报告"

# 优化后
description: "财务月度管理报告：读取 Excel 经营数据，计算环比/同比，识别异常科目，输出 Markdown 格式报告，包含数据血缘说明"

Part 4：怎么管

❓ 10：Skill 需要监控和错题本吗？怎么持续优化？

建议监控的几个指标：

指标	计算方式	参考基线	低于基线时的处理
触发准确率	自动匹配正确次数 / 总触发次数（用户未纠正视为正确）	>85%	优化描述字段或合并相似 Skill
输出满意度	👍/👎 反馈比例	>80% 👍	分析差评案例，更新 Skill 内容
执行成功率	脚本报错率、格式解析失败率	>95%	修复脚本或放宽格式约束
时间节省	对比使用 Skill 前后的耗时	省 >50%	低于预期则重新梳理流程
人工干预率	输出后需要大幅修改的比例	<20%	增加步骤细节或补充示例

上述基线是我们根据自身情况设定的参考值，各团队可按实际调整。

错题本模板（Markdown 格式）：

## 错题记录 2025-06-15

**Skill**: 客户健康度分析 v1.2.1  
**发现人**: 王五（客户成功经理）  
**问题描述**: 
客户近 7 天登录 0 次，但支持工单激增 5 个且情绪负面。
Skill 标记为"健康"，没有提示风险，后来客户流失了。

**根因分析**: 
评分算法只考虑了"使用活跃度"，没有纳入"工单情绪"维度。

**修复方案**: 
v1.3.2 增加工单情感分析步骤，负面工单 >2 个且情绪为负时，风险等级强制上调一级。

**验证结果**: 
用 10 个历史流失案例复测，准确率从 70% 提升到 92%。

**负责人**: 张三（业务）+ 李四（技术）  
**修复期限**: 3 个工作日内

优化节奏：每月一次 Skill 评审会，过一遍错题本，决定修复、合并或淘汰。

❓ 11：Skill 涉及数据操作，怎么管权限和安全？

五类风险和对应措施：

风险场景	防护措施
密钥硬编码	统一用环境变量或 AWS Secrets Manager 等密钥管理服务，Skill 内只写 `{{API_KEY}}`，禁止写死
核心算法泄露	定价策略、风控规则等放后端 API，Skill 只调接口，不暴露计算逻辑
越权访问	与现有 SSO 打通，按角色控制可见性，例如财务 Skill 仅财务角色可见
敏感数据外泄	Skill 内置脱敏规则：正则匹配手机号 `\d{11}`、身份证 `\d{17}[\dX]`，输出时替换为 `****`
操作无审计	全链路日志：谁、何时、用哪个 Skill、输入了什么、输出了什么，保留 180 天

Skill 默认只读。如果涉及诸如创建工单、更新 CRM 等写操作，需要满足三个条件：

用户显式确认
高风险场景加人工复核节点
完整的操作日志

❓ 12：怎么避免 Skill 用了三个月就没人用？

Skill 推广失败通常不是因为 Skill 本身写得不好，而是没有解决使用动力的问题。常见原因：旧习惯更顺手、没有人要求必须用、出了问题没人维护、效果好坏也没人知道。

常见轨迹

第 1 个月：兴奋，全员使用 Skills，效率提升明显
第 3 个月：新鲜感消退，部分人回归老方法
第 6 个月：Skills 无人维护，逐渐废弃

长效运营机制

机制	具体做法
强制嵌入流程	关键交付物必须通过 Skill 生成初稿，否则无法进入下一环节
度量透明化	团队周报展示 "本周节省 XX 小时"，与个人绩效弱挂钩
技能竞赛	季度评选 "最佳 Skill"，奖励创作者，形成内部市场
新人入职必学	将核心 Skills 使用纳入 onboarding，不写进文档直接教
定期大扫除	每季度淘汰低频 Skill，合并重复 Skill，保持生态健康

写在最后

基础模型的能力日新月异，复杂的 AI 应用工程化成本很高，Skill 提供了一种轻量的 AI落地方式。Skill 更为核心价值在于：把组织中个人零散的 AI 使用经验，转化成组织集体可复用的“数字知识资产”。无论基础模型能力如何发展，这些“数字知识资产”都能持续发挥作用，不会随着基础模型升级而失效。

不知大家在落地 Skill 的实践中遇到了哪些疑问呢？有没有不一样的心得呢？欢迎在评论区留言交流。