本章将回顾 AI 智能体 的演进历程,从早期的机器人流程自动化(RPA)到当今复杂的多智能体架构。我们将界定“什么才是真正的 AI 智能体”,拆解其关键组成,并考察正在重塑全球各行各业的不同类型的 AI 智能体。

本章将涵盖以下主题:

  • 从 RPA 到 AI 智能体的演进
  • AI 智能体的定义
  • 不同类型的 AI 智能体
  • AI 智能体的组成部分

读完本章后,你将清晰理解 AI 智能体的演进、其关键组件,以及它们如何改变产业。

技术要求

你可以在本书配套的 GitHub 代码库获取本章的完整代码:github.com/PacktPublis…

从 RPA 到 AI 智能体的演进

从传统的基于规则自动化到复杂的AI 驱动智能体,这段旅程伴随着显著的技术进步。最初的自动化局限于僵化、预定义的工作流;随着机器学习(ML)、强化学习(RL)与大型语言模型(LLM)的兴起,AI 智能体正变得更加自主、智能,并具备复杂决策能力。下面我们按阶段梳理近几十年的几种“代理”形态。

机器人流程自动化(RPA)

这是自动化的早期形态,聚焦于基于规则的系统来执行预定义任务。此类系统遵循严格的逻辑流程,依据明确条件与结构化输入采取行动。它们对重复性流程很有效,但缺乏灵活性、适应性,也难以处理非结构化数据。例如,一个严格依据决策树运作、不会从交互中学习的规则型聊天机器人,在动态环境意外输入面前就捉襟见肘。

传统的 ML/RL 智能体

随着 AI 发展,基于机器学习强化学习的智能体出现。它们可以从数据中学习,基于概率模型做决策,并通过试错优化行为。我们分别展开:

  • 基于规则的代理 → 机器学习模型:从静态规则集逐步过渡到能基于训练数据进行分类与预测的模型。
    例如,早期的客服聊天机器人依据决策树回答用户,并结合命名实体识别机制进行路由。

    定义(Definition)
    命名实体识别(NER) 是一种自然语言处理任务,用于识别并归类文本中的关键信息,如人名、组织名、地点、日期及其他预定义实体。

  • 强化学习(RL)智能体:通过与环境交互进行学习,为获得长期回报而优化行动。RL 被广泛用于游戏、机器人复杂问题求解
    例如,DeepMind 的 AlphaGo 通过模拟数百万盘对弈并以试错优化策略,学会了围棋。

然而,这些早期智能体的主要短板泛化能力有限。以 AlphaGo 为例:它虽在围棋上臻于化境,但其智能狭窄且领域特定——既不能把所学迁移到象棋等其他棋类,也无法胜任客服或排期这样的无关任务。这类 AI 在边界明确的环境中表现卓越,但当规则、上下文或输入模式发生变化就难以适应。
这暴露了 AI 的更广泛挑战:我们需要能跨领域推理、理解模糊指令,并对动态环境进行实时适应的智能体。

这正是 LLM 驱动智能体 登场之处。

基于 LLM 的智能体

随着 LLM 的出现,智能体在推理、规划与动态交互上的能力显著增强。生成式 AI 使这些智能体不仅能回答问题,还能综合信息、自动化工作流,并与多种外部系统集成——本章后文将详细展开。

从高层看,基于 LLM 的智能体之所以强大,在于它们可利用诸如 GPT-4o 等模型,不仅理解上下文、检索相关信息,还可编排一组组件,使智能体能与周边环境互动。这一“额外的智能层”使现代 AI 智能体区别于既有的 RPA 系统,也区别于仅生成文本的 LLM 本身。

此外,一旦引入大型多模态模型,AI 智能体就能融合文本、语音、视觉、结构化数据等多模态,以更贴近人类的方式进行交互。
例如,一个基于 LLM 的零售助理可以处理语音问询、分析商品图片,并实时查询库存数据库。

多智能体系统与自我复制智能体

AI 智能体演进中的一大突破是多智能体系统:多个智能体协作完成复杂任务。通过任务分解、专业化与并行执行,系统获得更高的效率与自主性。
例如,一个多智能体研究系统中:一名代理负责检索论文,另一名总结内容,第三名则为团队产出可执行洞见

此外,我们还可赋予代理以“自我复制”能力:根据需求生成额外子代理来处理子任务,实现弹性扩展。
例如,一个 AI 项目经理 可派生设计、编码、测试等专业子代理来协作完成软件开发流程。

AGI 智能体:下一道前沿

AI 演化的终极目标是通用人工智能(AGI)智能体——能够胜任人类所能完成的任何智力任务的系统。AGI 智能体将整合推理、规划、记忆与自我改进,在广泛应用中自主运作。
在本书写作时,AGI 仍未达成普遍共识的标准形态,但我们正在见证 AI 智能体边界的持续拓展,令人振奋。

在全书中,我们主要聚焦于单体、基于 LLM 的智能体,并在第 7 章涉及多智能体框架。接下来,让我们先给出 AI 智能体的定义。

AI 智能体的组成(Components of an AI agent)

AI 智能体是一类基于软件的实体,能够感知其环境、围绕目标进行推理、做出决策并执行行动——常以自主方式——并与外部系统交互。不同于遵循预编程规则的传统自动化,AI 智能体可以根据上下文动态适应、利用外部工具,并引入记忆以随时间改进决策。

在技术层面上,AI 智能体由若干核心组件构成:

  • LLM:代理的推理引擎,提供自然语言理解、响应生成与任务规划。诸如 GPT-4、Claude、Gemini 等 LLM 使代理能够处理用户输入、生成回答,甚至进行多步推理
  • 系统消息(System message) :可将其视为代理的“使命宣言”,为代理提供塑造行为的底层指令。除总体目标外,系统消息还定义语气、角色与约束(例如:“你是一名客服助理;请简洁并具同理心地回答”)。
  • 记忆(Memory) :使代理能够跨时间保留上下文,提升连贯性与个性化。高层上可区分为短期(基于会话)与长期(存储过往交互的数据库)。此外还有多种细分记忆形态(短期、情景式、程序式等),将在第 4 章展开。
  • 工具(Tools) :将代理能力扩展到 LLM 之外。代理通过调用 API、数据库、搜索引擎、自动化脚本 等外部工具来获取实时数据、执行计算或触发外部流程。
  • 知识库(Knowledge base) :存放代理可引用的结构化/非结构化领域知识,包括 RAG 系统、专有企业数据或专业知识库,以增强决策能力。

image.png

图 2.1:AI 智能体的主要组件

在此之上,还需要一个编排层(orchestration layer)治理任务流转,确保各组件之间的协调。

举例:设想一所学校开发一名 AI 代理,帮助高中生掌握复杂的 STEM 主题。借助 LLM、记忆与编排,该代理可提供个性化辅导、引用权威来源,并依据每位学生的学习需求自适应

image.png

图 2.2:AI 辅导助理示例

下面放大到各组件:

  • LLM:作为核心推理引擎——代理的“大脑”,负责解释概念、解决问题、以对话方式回答学生问题——这得益于代理其他组件提供的附加信息。
    注(Note)
    需牢记:LLM 通常在公开/通用语料上训练,若不进行锚定(grounding) ,往往缺乏对特定行业、专有数据或组织流程的深层上下文理解。因此,为特定用例提供外部知识库能赋予代理领域知识,提升准确性、可信度与实用性
  • 系统消息:定义代理的人设与行为边界,使其始终与教育目标对齐(我们不希望 AI 导师代做作业,而是通过支持学习过程来强化薄弱环节、聚焦特定学习点)。
  • 编排(Orchestration) :负责 UI、LLM 与各组件 之间的顺畅交互;智能路由请求,决定何时取外部数据、引用已存的学生表现历史,或直接由 LLM 生成内容。
  • 记忆(Memory) :追踪学生的会话以保持话题相关(短期记忆);并保存过往交互以形成学生学业画像(长期记忆)。据此,代理可基于强弱项强化难点并优化教学计划。
  • 知识(Knowledge) :存放回答所需的相关资料,尤其在需要把模型锚定到一组文档(如校内手册)时尤为有用。
  • 工具与 API 集成:为代理赋能行动的所在。例如接入学生与学校日历,使其可按空闲与课表代订辅导课
  • UI(学生界面) :提供基于聊天的交互式学习体验,整合文本、示意图与分步解题

实际工作流程示例:

  1. 学生提出一则关于牛顿力学的复杂问题。
  2. LLM 处理查询,并利用既往交互与上下文记忆
  3. 编排器判断是否需引用参考资料、学生历史表现或进行外网检索。
  4. 如有需要,代理从学校参考手册中检索相关信息。
  5. LLM 依据学生水平定制讲解,并针对其历次考试薄弱点进行强化。
  6. 学生收到交互式回应:含分步讲解、可视化辅助与练习题。
  7. 代理进一步提供预约加课选项,依据日历中可用时段安排。
  8. 学生同意后,代理代为预约课程。

接下来一个关键问题是:代理如何知道何时调用特定知识或特定工具?

其强大之处在于:语言模型理解自然语言。每当一个工具/组件(例如“预订会议”操作)被注册,它不仅仅由底层逻辑(如调用某 API 的 POST 请求)定义,还会配有一段自然语言描述,用清晰的文字说明该工具做什么返回什么。LLM 会读取这些描述,并据此决定何时/如何在任务中调用工具。本质上,模型不仅在执行代码,更在基于人类可读描述对可用动作进行推理与选择

image.png

图 2.3:以自然语言描述代理组件的示例

因此,当用户提出请求时,代理(以 LLM 为“大脑”)会遍历所有组件描述,判断应调用哪一个来解决问题。

实践中,我们可以为“如何调用合适的工具”定义不同策略。例如,你可能希望某个工具总是先被调用,然后再由代理决定是否需要追加其他工具。应对这种规定次序的一种方式,是直接写入系统消息。例如:

这些策略由编排器层进行定义与落实,第 3 章将进一步说明。

AI 智能体的不同类型(Different types of AI agents)

AI 智能体在复杂度与能力上各不相同,从简单的检索型代理到完全自主系统不一而足。理解这些类型有助于组织与开发者为特定用例选型。本节我们将把 AI 智能体归为三大类:检索型代理(retrieval agents)任务型代理(task agents)自主型代理(autonomous agents)

检索型代理(Retrieval agents)

在第 1 章中,我们介绍了 RAG(检索增强生成) :在生成回答前,LLM 会先从已正确嵌入并存储于 向量数据库(VectorDB) 的知识库中检索相关文档或片段。

检索型 AI 代理建立在 RAG 的基础上,但引入了更先进的代理式行为,使其更具自主性与适应性。实际上,我们在标准 RAG 流水线之上增加了一层智能与规划,让代理可以为“如何检索到最相关的信息”制定策略

注(Note)
检索型 AI 代理常被称为 agentic RAG。在这种方法中,知识源被视为“工具(tools) ”,即每个来源都配有一段自然语言描述,从而使代理可依据用户查询决定调用哪一来源。一旦调用,具体检索机制与传统 RAG 相同;不同之处在于,新增的智能层可以判断当前信息是否足够,必要时继续调用其他来源。

示例:我们希望为医生构建一个能快速检索治疗方案的 AI 助手。医生提问:“2 型糖尿病最新治疗方案有哪些?”来看两种方法的对比:

传统 RAG 方法:

  • 系统从数据库中检索最相关的三篇文章;
  • 模型从这些文章中抽取相关文本并生成概述性回答;
  • 若检索结果未能充分回答问题,除非医生手动提交新查询,模型无法自行细化搜索。

image.png

图 2.4:传统 RAG 流水线

检索型 AI 代理方法:

  • 代理首先检索一组初始文档并进行分析
  • 它检测到部分研究已过时,于是细化检索条件,再取更近期的出版物;
  • 识别到针对某一特定药物的信息缺口,进一步检索该药物的专项研究
  • 最终将所有检索来源综合为一份完整答案,确保相关性与完备性

image.png

图 2.5:Agentic RAG 流水线

小结: 与传统 RAG 相比,agentic RAG 带来多方面改进:

  • 多步与递归检索:不再一次性检索完毕,代理会迭代细化搜索,将复杂问题分解为多步
  • 上下文感知:保留交互记忆,可追问澄清动态调整检索策略;
  • 工具驱动的查询执行:可与 API、数据库、向量搜索引擎 交互,获取实时结构化数据;
  • 自适应知识增强:不同于静态检索,代理可从多来源补充信息并进行语境化综合
  • 自主决策:能判断何时需要更多信息、选择查询哪些来源、以及如何细化结果以获得最佳相关性。

检索型代理是最基础的 AI 代理形态,但这层额外的智能已显著改善用户体验。然而,AI 代理的真正威力在于将检索能力与可执行任务相结合——这一点将在后续的任务型自主型代理中体现。

任务型代理(Task agents)

任务型代理不止于信息检索,它们会执行具体动作。此类代理旨在自动化工作流、替代用户的重复性操作。与检索型代理不同,任务型代理会根据用户指令外部触发器执行预定义的动作

注(Note)
在谈到 AI 智能体时,你常会听到 tasks、tools、skills、plugins、functions、actions 等术语,常被交替使用来指代代理“能做事”的能力。不同的编排平台对术语也各不相同。下面做个简要厘清:

  • Tasks(任务) :定义要完成的目标,可从简单动作(如发送邮件)到包含多步操作的复杂流程。
  • Tools(工具) :提供执行任务的外部手段,如数据可视化工具绘制图表,或机器翻译服务进行多语言翻译。
  • Plugins(插件) :通过与其他平台集成扩展能力,通常包含一组可在该平台上执行的操作/函数(如列出行、追加记录等)。
  • Functions(函数) :描述内部的操作方法;例如,正确定义的 get_weather 函数可以返回某地的实时天气。
  • Skills(技能) :指代理学到的熟练能力,通常以**声明式(自然语言)**方式定义;可将其视作仅在需要时被调用的“迷你提示词”。
  • Actions(行动) :代理针对特定输入或情境采取的具体步骤/操作,是其函数与技能的实时体现,会产生可观察的结果。

让我们继续看一个医疗领域的示例,这次从全科诊所前台接待员 John 的视角出发。

John 需要处理大量预约请求。病人通过电话、邮件与线上系统预约。处理临时取消改期非常耗时,也常导致排班出现空档。

John 一天的典型流程可能如下:

  1. 收到病人 X 的预约邮件,其中包含对日期/时间的偏好;
  2. 查询相关专科医生的可用时段,尽量匹配病人偏好与最早可约时间;
  3. 无匹配,则回复病人 X 寻求备选方案
  4. 双方最终确认一个时段并创建预约

本质上,上述步骤就是 John 为达成目标(为医生与病人找到最优时间)所需完成的一系列任务

当我们希望用 AI 智能体(更具体地说,任务型代理)来映射并增强业务流程时,一个良好实践是把人的任务转化为代理的任务。例如,任务型代理可这样协助 John:

image.png

图 2.6:任务型代理如何执行一项任务
(提示:需要查看高清图?请在 next-gen Packt Reader 或本书的 PDF/ePub 版本中查看。购买本书可免费获得 next-gen Packt Reader。扫描二维码或访问 packtpub.com/unlock,搜索本书名称并确认版本。)

  • 自动扫描邮件:代理读取来自病人 X 的邮件,提取关键信息(姓名与联系方式、偏好日期/时间、所需专科)。

  • 检查可用性:代理调用诊所排班系统插件(即我们为代理配备的工具),将病人的偏好与该专科医生最早可用时段进行匹配;若匹配,跳至步骤 5。

  • 生成备选并拟稿:若无匹配,代理基于医生日程生成最优备选时段列表,并借助写作技能起草给病人 X 的回复邮件(由 John 审核后发送)。

  • 病人反馈:病人 X 提出新偏好,并且要么

    • 接受其一(进入步骤 5),要么
    • 请求更多选项,则代理重复上一步。
  • 落地预约与通知:John 与病人 X 达成一致后,代理再次使用上述插件在系统中创建预约,并通过邮件插件发送确认邮件给病人 X;同时更新医生日历通知其预订信息。

image.png

图 2.7:面向诊所的任务型 AI 代理“解剖图”示例

如你所见,AI 代理就像 John 的助理,代为处理重复的排班任务,从而让他把精力集中在线下接待与服务上。

自主型代理(Autonomous agents)

自主型代理是最先进的一类 AI 智能体。不同于在预设边界内运行的检索型任务型代理,自主型代理能够战略性编排多项任务与检索流程,实时决策以优化工作流。它们具备高度的独立性、适应性与情境感知,因而可在最少人工干预下完成复杂操作。

自主型代理的关键区别在于其能够:

  • 结合检索与行动:既能像检索型代理那样获取信息,也能像任务型代理那样据此行动
  • 规划并自我调整:可依据新信息或约束变化动态适配
  • 执行多步工作流:将复杂任务拆解为子任务迭代执行并依据结果调整

继续以 John 的诊所为例。随着诊所业务繁忙,管理预约、取消与改期变得愈发吃力。任务型代理已能简化单个动作,但现在自主型代理极少监督下接管端到端的排班流程。其逐步工作方式如下:

  1. 受理与优先级排序(Intake and prioritization) :代理监控所有渠道(邮件、门户、电话录音转写),抽取病人偏好、紧急程度与专科需求,并按优先级排序。比如,一条取消会打开新时段,代理会即时匹配给一直等待相近时段的病人 X。
  2. 规划与优化(Planning and optimization) :审核全天日程,识别冲突或空档,构建优化方案——将低优先级就诊顺延,为紧急患者腾挪时段
  3. 带反馈的执行(Execution with feedback) :自动向病人推送选项、更新日历、创建预约并发送确认。如偏好更改,则回环并细化动作。
  4. 实时适配(Real-time adaptation) :若医生临时请假,代理暂停新预约、为受影响患者自动改期通知员工——除非需要人工介入,否则全流程自治处理。
  5. 持续学习(Continuous learning) :日终分析结果,更新病人偏好,并调整未来的优先级逻辑。

该自主型代理能规划、检索、决策、行动、适配与学习——而无需依赖预定义的固定流程。John 只需聚焦边界案例,其余由代理智能处理。

自主型代理代表着 AI 驱动流程自动化 的下一步。通过将检索式 AI 的能力(情境感知、实时检索细化)与任务执行技能(预约排班、自动通知)相融合,自主型代理能够从根本上重塑业务流程与日常运营。

注(Note)
尽管自主型代理与业务流程自动化的概念高度契合,但它们同样能为客户体验带来新提升。以上述场景为例,病人 X 无需电话或邮件,可直接使用代理提供的对话式界面(如诊所网站或 WhatsApp 渠道)。在此过程中,代理捕捉意图、在需要时追问补充信息,并在后台编排各系统执行任务,从而带来更顺畅的交互体验。

我们可以为代理设定不同程度的自主性;取舍取决于业务场景以及我们对解决方案准确度的信心

小结(Summary)

AI 智能体已从基础自动化工具进化为复杂的自主系统,重塑业务运营与专业工作流。本文介绍了三种主要类型:

  • 检索型代理:以 Agentic RAG 强化知识获取;
  • 任务型代理:自动化具体动作,如排班与邮件管理;
  • 自主型代理:将检索与执行结合,并以战略性决策优化复杂工作流。

针对每个用例部署合适类型的 AI 代理,是实现高影响力自动化与优化用户体验的关键。

从下一章开始,我们将更深入剖析 AI 智能体的各个组成部分,首先从**AI 编排(orchestration)**入手。

参考资料(References)

  • DeepMind’s AlphaGo: en.wikipedia.org/wiki/AlphaG…
  • Autonomous agents: www.techtarget.com/searchenter…
  • Reinforcement learning: www.tensorflow.org/agents/tuto…
  • AGI: www.ibm.com/think/topic…
本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:[email protected]