Lesson 1: Agent 是什么、不是什么

学习目标

  • 理解 AI Agent 的准确定义
  • 区分 Agent 与 Chatbot、RPA、传统自动化的本质差异
  • 建立正确的 Agent 思维模型

Agent 的精确定义

一个 AI Agent 是能够自主感知环境、做出决策、采取行动来实现目标的系统。关键词是"自主"——它不是按固定脚本执行,而是根据上下文动态调整行为。

用一个类比:传统自动化像是流水线工人,按固定步骤操作;Agent 像是一个有经验的助理,能理解意图、判断情况、灵活应对。

传统自动化: IF condition THEN action(确定性)
AI Agent:    感知 → 推理 → 决策 → 行动 → 反馈循环(自适应)

Agent 的三个核心能力

1. 感知(Perception)

Agent 通过 Tools 感知外部世界。一个邮件处理 Agent 能读取邮件内容、附件、发件人信息;一个客服 Agent 能理解客户的文字、语气、历史记录。

没有感知能力的 LLM 只是一个"大脑"——能思考但看不见、听不到、也碰不到外部世界。

2. 推理(Reasoning)

这是 LLM 的核心价值。Agent 不是简单匹配关键词,而是理解意图。同一句"我要退货",根据上下文可能需要完全不同的处理流程——是质量问题、尺寸不对、还是冲动消费后悔了?

推理能力让 Agent 处理模糊的、非结构化的、变化的输入,这是传统 RPA 做不到的。

3. 行动(Action)

Agent 通过 Tool Use / Function Calling 与外部系统交互。发邮件、更新数据库、调用 API、生成文件——这些都是行动。关键是 Agent 自己决定什么时候调用什么工具,而不是人类写好调用顺序。

Agent ≠ Chatbot

维度ChatbotAgent
交互模式等待人类输入主动执行任务
工具使用无或极少大量使用外部工具
状态管理无状态或简单记忆维护复杂工作状态
错误处理返回"我不理解"尝试替代方案
执行范围文本对话跨系统操作

Agent ≠ RPA

RPA(机器人流程自动化)是"录制回放"模式——录一遍人类的操作步骤,然后精确重复。它的问题是脆弱性:网页改了布局、表单多了一个字段,RPA 就崩了。

Agent 理解意图而非步骤。你告诉 Agent "把这些发票录入系统",它能适应不同格式的发票、处理异常情况、在遇到问题时寻求帮助。

什么问题适合用 Agent 解决?

Agent 的甜蜜区域:

  1. 重复但有变化 — 每次都差不多,但细节不同(如处理不同格式的发票)
  2. 需要判断力 — 不是纯机械操作,需要理解和决策(如评估销售线索质量)
  3. 跨系统协调 — 需要在多个系统间搬运和转换数据(如内容分发到多平台)
  4. 人力成本高 — 目前需要人做但价值不高的工作(如初步筛选简历)

不适合 Agent 的场景:

  • 需要 100% 精确度的财务计算
  • 涉及法律/医疗等高风险决策(除非有人类审核)
  • 简单的 IF-THEN 规则(用传统自动化更可靠)
  • 需要实时响应(毫秒级)的系统

思维模型:Agent as a Service

把 Agent 想象成你雇的一个远程助理:

  • 你给它明确的职责范围(不是让它什么都做)
  • 你给它工具和权限(邮箱、CRM、日历的访问权)
  • 你设定汇报机制(什么事情要通知你、什么可以自己决定)
  • 你定期检查工作质量(监控和反馈循环)

这个思维模型会贯穿整个课程——好的 Agent 设计就像好的团队管理。

关键收获

  1. Agent = 感知 + 推理 + 行动的自主系统
  2. Agent 处理"模糊和变化",传统自动化处理"精确和固定"
  3. 选对问题比选对技术更重要
  4. 把 Agent 当"智能助理"来设计,而不是当"脚本"来写