Lesson 1: Agent 是什么、不是什么
学习目标
- 理解 AI Agent 的准确定义
- 区分 Agent 与 Chatbot、RPA、传统自动化的本质差异
- 建立正确的 Agent 思维模型
Agent 的精确定义
一个 AI Agent 是能够自主感知环境、做出决策、采取行动来实现目标的系统。关键词是"自主"——它不是按固定脚本执行,而是根据上下文动态调整行为。
用一个类比:传统自动化像是流水线工人,按固定步骤操作;Agent 像是一个有经验的助理,能理解意图、判断情况、灵活应对。
传统自动化: IF condition THEN action(确定性)
AI Agent: 感知 → 推理 → 决策 → 行动 → 反馈循环(自适应)Agent 的三个核心能力
1. 感知(Perception)
Agent 通过 Tools 感知外部世界。一个邮件处理 Agent 能读取邮件内容、附件、发件人信息;一个客服 Agent 能理解客户的文字、语气、历史记录。
没有感知能力的 LLM 只是一个"大脑"——能思考但看不见、听不到、也碰不到外部世界。
2. 推理(Reasoning)
这是 LLM 的核心价值。Agent 不是简单匹配关键词,而是理解意图。同一句"我要退货",根据上下文可能需要完全不同的处理流程——是质量问题、尺寸不对、还是冲动消费后悔了?
推理能力让 Agent 处理模糊的、非结构化的、变化的输入,这是传统 RPA 做不到的。
3. 行动(Action)
Agent 通过 Tool Use / Function Calling 与外部系统交互。发邮件、更新数据库、调用 API、生成文件——这些都是行动。关键是 Agent 自己决定什么时候调用什么工具,而不是人类写好调用顺序。
Agent ≠ Chatbot
| 维度 | Chatbot | Agent |
|---|---|---|
| 交互模式 | 等待人类输入 | 主动执行任务 |
| 工具使用 | 无或极少 | 大量使用外部工具 |
| 状态管理 | 无状态或简单记忆 | 维护复杂工作状态 |
| 错误处理 | 返回"我不理解" | 尝试替代方案 |
| 执行范围 | 文本对话 | 跨系统操作 |
Agent ≠ RPA
RPA(机器人流程自动化)是"录制回放"模式——录一遍人类的操作步骤,然后精确重复。它的问题是脆弱性:网页改了布局、表单多了一个字段,RPA 就崩了。
Agent 理解意图而非步骤。你告诉 Agent "把这些发票录入系统",它能适应不同格式的发票、处理异常情况、在遇到问题时寻求帮助。
什么问题适合用 Agent 解决?
Agent 的甜蜜区域:
- 重复但有变化 — 每次都差不多,但细节不同(如处理不同格式的发票)
- 需要判断力 — 不是纯机械操作,需要理解和决策(如评估销售线索质量)
- 跨系统协调 — 需要在多个系统间搬运和转换数据(如内容分发到多平台)
- 人力成本高 — 目前需要人做但价值不高的工作(如初步筛选简历)
不适合 Agent 的场景:
- 需要 100% 精确度的财务计算
- 涉及法律/医疗等高风险决策(除非有人类审核)
- 简单的 IF-THEN 规则(用传统自动化更可靠)
- 需要实时响应(毫秒级)的系统
思维模型:Agent as a Service
把 Agent 想象成你雇的一个远程助理:
- 你给它明确的职责范围(不是让它什么都做)
- 你给它工具和权限(邮箱、CRM、日历的访问权)
- 你设定汇报机制(什么事情要通知你、什么可以自己决定)
- 你定期检查工作质量(监控和反馈循环)
这个思维模型会贯穿整个课程——好的 Agent 设计就像好的团队管理。
关键收获
- Agent = 感知 + 推理 + 行动的自主系统
- Agent 处理"模糊和变化",传统自动化处理"精确和固定"
- 选对问题比选对技术更重要
- 把 Agent 当"智能助理"来设计,而不是当"脚本"来写