博客

人工智能与大模型

大型动作模型-用于执行任务的大型语言模型

2025.06.27 31分钟阅读

介绍

大语言模型（LLMs）凭借其理解和生成广泛主题的文本的能力，彻底改变了我们的日常生产力。但是，尽管 LLM 擅长对话、总结和内容生成，但它们有一个关键的局限性：都只停留在语言上。他们可以告诉你该做什么，但他们不能为你做。

这就是语言动作模型（LAM）发挥作用的地方。LAM 建立在 LLM 的基础上，但增加了一个关键的新能力——行动。LAM 不仅可以产生响应，还可以理解意图、计划步骤，并与工具或系统交互以执行任务。无论是自动化数据库更新，还是语言驱动的机器人技术，LAM 都旨在将自然语言转化为有意义的、现实世界的结果。

什么是语言行为模型（LAM）

语言动作模型（LAM）是一种人工智能系统，它不仅能理解语言，还能使用语言执行动作。与专注于生成文本的传统 LLM 不同，LAM 的构建是为了解释命令、计划下一步行动和采取行动。大型动作模型（LAM）旨在理解人类的意图，并将其转化为给定环境或系统中的动作。

LAM 将语言理解与工具使用、决策和记忆相结合。它们可以调用 API，与应用程序交互，并参考过去的上下文来完成复杂的任务，同时与用户自然地进行通信。

关键用例

LAM 在任何自然语言可以驱动实际行动的地方都很有用。常见应用包括：

工作流自动化：通过聊天界面触发生成报告、更新数据库或管理电子邮件等序列。
个人助理和机器人：安排会议、设置提醒或通过解释自然命令来控制智能设备。
开发人员工具：在集成开发环境（IDE）中编写、编辑、运行代码和/或基于文本的指令。
研究代理：从大量文档或数据中搜索、阅读、总结和汇编见解。它还可以根据文档填写标签数据。

这些用例展示了 LAM 如何弥合沟通和执行之间的差距，使 AI 更加实用和动手。

LAM 是如何工作的？

LAM 通过一系列相互连接的组件运行，使它们能够理解语言、做出决策和执行任务：

输入层：由基础 LLM 提供支持，输入层接收文本或语音输入，以理解用户请求的上下文。
上下文和决策层：解释目标，将上下文加载到内存中，并评估情况和环境，以确定完成任务的最佳方法。
行动层：基于上下文和决策层，行动层将通过将我们的上下文映射到具体的行动计划来选择行动。这可以包括 API 调用、系统命令、文本输出响应或其他映射函数。
执行层：执行由操作层制定的行动计划，如调用 API、使用工具、查询数据库等。
反馈层：将整个过程的结果反馈给模型，以评估成功或失败。该层可以触发重试、调整和学习更新。

这是一个个人机器人的语言动作模型的例子。在这种情况下，计算机视觉是必要的。NVIDIA 已经开发了与人形机器人对话和互动的功能。如果你让你的机器人把一个苹果放在篮子里，我们可以使用一个大型动作模型。

1.输入层：向模型提供语音或文本提示，以理解用户的指令：例如，“你能从厨房给我拿杯苏打水吗？”输入层使用 LLM 解析命令，识别所涉及的对象（“苏打水”、“厨房”），并将其转化为结构化目标。

2.上下文+决策层：确定高级计划。首先，它将决定意图：“导航到厨房，找到一杯苏打水，抓住它，回到用户身边”，还可以查询记忆厨房在哪里？苏打水是什么样子的？

3.行动层：将计划转化为具体的行动步骤。

生成特定命令，例如：

导航到（location="kitchen"）
检测对象（label="soda can"）
抓取对象（object_id=42）
导航到（location="user"）
释放对象（object_id=42）

4.执行层：使用低级机器人控制和传感器执行每个命令。

控制电机移动到厨房。

通过摄像头进行物体检测。
命令手臂抓住并移动。
监控传感器以避免碰撞、物体抓握反馈等。

5.反馈层：评估每个步骤是否成功。如果未检测到“苏打水”：请重试检测或升级错误。如果“抓握”失败：调整位置并重试。如果“用户”移动：重新计算路线。

部署 LAM 的注意事项

虽然语言动作模型（LAM）解锁了高级功能，但它们的部署需要精心设计，以确保可靠性、安全性和性能。以下是需要考虑的关键因素：

关键部署因素

工具和 API 集成：LAM 必须与外部系统接口以执行任务。这需要强大的 API 连接器、清晰的输入/输出模式和安全的身份验证协议。

系统复杂性：LAM 管道可能包括意图解析、规划模块、工具执行、内存管理和监控。编排这些组件需要模块化设计和明确的系统边界。
计算要求：根据模型大小和任务复杂性，实时 LAM 推理可能需要 GPU 加速，特别是在涉及推理或多步规划的情况下。
记忆和上下文：持久的用户和任务上下文可以提高性能和个性化。安全地存储和检索相关会话或用户历史对于连续性至关重要。
安全和治理：LAM 可以采取现实世界的行动，因此定义严格的执行权限、跟踪决策和内置覆盖机制以防止误用或失败非常重要。
性能和延迟：每个 LAM 循环——意图识别、计划、执行——都会增加延迟。低延迟规划、缓存和预处理可以提高响应速度。

LAM 部署的最佳实践

要构建一个强大且可扩展的 LAM 驱动系统，请考虑以下最佳实践：

从受控范围开始：限制 LAM 早期可以访问的工具或 API 的数量。专注于稳定、记录良好的端点，并逐步扩展。
模块化架构：将模型推理、规划逻辑、工具执行和内存处理分离为清晰的组件。这有助于调试、扩展和维护。
实现基于角色的访问控制（RBAC）：使用 RBAC 和作用域根据任务或用户角色限制LAM的功能。这可以防止意外或未经授权的行为。
回退和确认机制：对于影响较大的操作，在执行之前实施用户确认步骤或验证提示。
监控和记录操作：维护所采取操作、决策跟踪和用户输入的详细日志，以支持可观察性、审计和事件响应。
尽可能使用轻量级规划：当规则或启发式方法足够时，避免复杂的推理。简化规划可以显著降低延迟和错误风险。
环中人设计（HITL）：在早期部署中，让人监督 LAM 生成的关键决策或计划，特别是在敏感应用中。

总结

语言动作模型（LAM）通过将自然语言转换为可执行动作，建立在传统语言模型的基础上。LAM 具有意图识别、规划和工具使用等功能，使系统能够自主完成任务。

这一转变解决了 LLM 的核心局限性——它们无法采取行动——并为更智能、更高效的自动化打开了大门。随着人工智能应用的增长，LAM 将成为开发能够独立高效运行的代理的基础。

LAM 代表了构建系统所需的基础设施，这些系统不仅能理解指令，还能以有意义的、目标导向的行动做出响应。

注册我们的通讯。

免费资源

浏览我们的白皮书、电子书、案例研究和参考架构

搜索

主题

有什么问题吗？

联系我们

博客

大型动作模型-用于执行任务的大型语言模型

相关贴子

Hugging Face BERT 的问答教程

高计算密度，规模数据新势力——GK4428

DeepSeek 算力平台推荐方案

什么是多层感知以及何时使用 MLP 与 Transformers

会思考的 AI：自主推理人工智能

注册我们的通讯。

免费资源

主题

有什么问题吗？

相关贴子

赋能 AI 大模型训练推理助力 DeepSeek 落地-LTHPC G6228 G3

最大限度地提高人工智能训练效率——如何选择正确的模型

你的深度学习工作站应该用多少 GPU？

注册我们的通讯。

敬请登记。