ReAct 模式详解

ReAct (Reasoning and Acting) 模式是一种创新的提示工程 (Prompt Engineering) 技术，旨在提升大型语言模型 (LLMs) 在执行复杂任务时的推理能力和与外部环境交互的能力。它通过诱导 LLM 显式地生成思维链 (Thought) 和行动 (Action)，然后观察环境反馈 (Observation)，并基于这些反馈迭代地进行推理和行动，从而使其能够规划、执行和修正任务。ReAct 模式的核心思想是将人类解决问题的方式（思考、行动、观察、再思考）映射到 LLM 的提示交互中，极大地增强了 LLM 解决需要多步骤推理和工具使用的动态问题的能力。

核心思想：

推理 (Reasoning)：LLM 显式生成思考过程，分析问题、规划步骤。
行动 (Acting)：LLM 决定执行特定工具或操作。
观察 (Observation)：LLM 获取环境（工具输出、外部信息）的反馈。
迭代循环：Thought -> Action -> Observation 循环往复，直到任务完成。
增强性能：有效提升复杂推理、事实问答、数学计算、代码生成等任务的准确性和鲁棒性。
工具使用：允许 LLM 调用外部工具（搜索、计算器、API 等）。

一、为什么需要 ReAct 模式？传统 LLM 的局限性

在 ReAct 模式出现之前，大型语言模型在处理复杂任务时面临一些挑战：

缺乏稳定、多步骤的推理能力：
- 即使通过传统的 CoT (Chain-of-Thought) 提示，LLM 可以生成中间思考步骤，但这些思考仍然是“纯粹”的语言生成，没有与外部世界进行真实的交互验证。
- 在需要多步骤的问题中，LLM 可能会在早期步骤中犯错，并基于这些错误继续生成后续内容，导致“幻觉”或不准确的答案。
“信息茧房”效应：
- LLM 的知识仅限于其训练数据。对于实时信息、需要计算或外部 API 才能获取的信息，它们无能为力。
- 缺乏与外部工具和环境交互的能力，限制了 LLM 的应用范围。
结果不可控：
- 单次提示生成的答案通常是最终结果，无法在中间步骤进行纠正或引导。
- 难以处理需要试错和迭代的问题。

ReAct 模式通过引入“行动”和“观察”机制，打破了这种“信息茧房”，让 LLM 获得了一种类似人类的“具身智能 (Embodied Intelligence)”能力，使其能够感知环境、采取行动并根据反馈调整策略。

二、ReAct 模式的工作原理

ReAct 模式的核心是一个迭代循环：Thought -> Action -> Observation，直到任务完成并生成最终答案。

1. Thought (思考)

LLM 职责：在这一步，LLM 会分析当前的任务目标和前一个 Observation 的结果。
生成内容：LLM 显式地生成一段文本，阐述其当前的推理过程、下一步的计划、为什么选择某个行动、如何解析观察结果等。这类似于人类在解决问题时会“自言自语”地思考。

2. Action (行动)

LLM 职责：基于 Thought，LLM 决定执行一个具体的行动。这个行动通常是对外部工具（Tools）的调用。
生成内容：LLM 以特定格式（通常是结构化的文本，如 JSON 或特定函数调用语法）生成动作指令，指定要调用的工具名称和传递给该工具的参数。

3. Observation (观察)

LLM 职责：在 LLM 生成并执行 Action 后，外部环境（通常是一个工具执行器 Tool Executor）会执行这个 Action。
获取内容：环境会将 Action 的执行结果（例如，搜索结果、计算结果、API 响应或错误信息）作为 Observation 返回给 LLM。
作为输入：这个 Observation 会被添加到 LLM 的上下文（Prompt）中，供 LLM 在下一个Thought步骤中进行分析和利用。

4. 循环与终止

这个 Thought -> Action -> Observation 循环会持续进行，直到 LLM 认为任务已完成并生成一个最终的 Answer。
终止条件通常是 LLM 显式生成一个“最终答案”的指令，例如 Final Answer: <答案内容>。

工作流程示意图

    graph TD
    %% 全局暗黑主题样式
    accTitle: ReAct LLM Agent Workflow
    classDef default fill:#1e1e1e,stroke:#444,stroke-width:2px,color:#dcdcdc;
    classDef highlight fill:#264f78,stroke:#569cd6,color:#fff;
    classDef loop fill:#2d2d2d,stroke:#ce9178,stroke-dasharray: 5 5,color:#ce9178;
    classDef tool fill:#3e3e3e,stroke:#85c46c,color:#b5cea8;
    classDef endNode fill:#4a1c1c,stroke:#e74c3c,color:#fff;

    %% 节点定义
    Start([用户提问/任务]):::highlight
    Receive{LLM 接收上下文}:::highlight
    
    subgraph Reasoning_Loop [ReAct 思考循环]
        Thought(Thought: 分析与规划):::loop
        Action(Action: 生成调用指令):::loop
        Executor[Tool Executor 外部执行]:::tool
        Observation(Observation: 工具返回结果):::tool
    end

    Final(Final Answer: 生成最终回答):::highlight
    End([任务完成]):::highlight

    %% 业务逻辑连线
    Start --> Receive
    Receive --> Thought
    
    %% 核心循环
    Thought --> Action
    Action --> Executor
    Executor --> Observation
    Observation -- "反馈结果作为新 Prompt" --> Receive

    %% 退出条件
    Receive -- "识别任务已完成" --> Final
    Final --> End

    %% 样式微调
    linkStyle default stroke:#888,stroke-width:1px;
    linkStyle 4 stroke:#ce9178,stroke-width:2px;

图：ReAct 模式工作流程

三、ReAct 模式的优势

ReAct 模式带来了显著的性能提升和功能扩展：

增强推理能力：
- 显式的 Thought 步骤强制 LLM 进行结构化思考，降低了推理错误率。
- LLM 可以像人一样进行试错和修正。当 Observation 不符合预期时，LLM 可以通过 Thought 步骤识别问题，并规划新的 Action。
引入外部知识和实时信息：
- 通过调用搜索工具，LLM 可以获取最新的、训练数据中没有包含的信息。
- 例如，回答“今天纽约天气怎么样？”或者“最新的 iPhone 型号是什么？”这种需要实时信息的问题。
支持复杂计算和数据处理：
- 通过调用计算器工具或数据分析 API，LLM 可以准确地执行数学计算或进行复杂的数据处理，克服其在这些领域固有的弱点。
提高任务解决的鲁棒性：
- ReAct 模式允许在任务执行过程中动态调整策略，对不确定性和错误具有更好的容忍度。
扩展应用场景：
- 使得 LLM 能够处理以前无法完成的任务，如代码生成、问题诊断、自动化工作流等。

四、ReAct 模式的组成部分

实现 ReAct 模式通常需要以下元素：

大型语言模型 (LLM)：能够理解复杂指令，并生成结构化文本。
工具集 (Tools)：
- 一系列可供 LLM 调用的外部函数或 API。
- 每个工具都应有清晰的描述，说明其功能、输入参数和预期输出。
- 常见的工具包括：
  - 搜索工具 (Search Tool)：例如 Google Search API, Wikipedia API。
  - 计算器工具 (Calculator Tool)：执行数学运算。
  - 代码解释器 (Code Interpreter)：执行 Python 或其他语言代码。
  - 数据库查询工具 (Database Query Tool)：执行 SQL 查询。
  - 自定义 API 工具：例如调用天气 API, 日历 API 等。
工具执行器 (Tool Executor / Agent)：
- 负责解析 LLM 生成的 Action 指令。
- 根据指令实际调用对应的工具。
- 捕获工具的输出，并将其格式化为 Observation 文本返回给 LLM。
提示模版 (Prompt Template)：
- 精心设计的提示，包含：
  - 任务指令。
  - 可用工具的详细描述 (包括名称、功能、参数)。
  - ReAct 流程的示例 (Few-Shot Examples)，引导 LLM 按照 Thought -> Action -> Observation 的模式生成内容。
  - 当前对话的历史 (Thought, Action, Observation 序列)。
- 示例如下：

你是一个能够通过思考和调用工具解决问题的智能助手。

可用工具：
1. `search(query: str)`: 搜索工，用于获取最新信息或回答事实性问题。
   输入: 搜索查询字符串
   输出: 搜索结果摘要

2. `calculator(expression: str)`: 算术计算器，用于执行数学运算。
   输入: 合法的数学表达式 (例如 "10 + 5 * 2")
   输出: 计算结果

你可以通过以下格式进行思考和行动：
Thought: 我需要做什么？如何使用工具？
Action: tool_name(tool_input)
Observation: tool_output
... (重复Thought, Action, Observation)
Thought: 我已经获得了足够的信息，可以生成最终答案了。
Final Answer: 最终答案

现在，开始你的任务：

问题: 巴黎和东京的时差是多少小时？当前日期是2025年9月6日。

Thought: ...