01 当我们聊 AI Agent 时,到底在聊什么?从 Alpha Go 到 ChatGPT,一次讲透 Agent 的底层逻辑

最近和朋友聊起 AI Agent,发现大家的认知差异还蛮大的。

有人觉得必须像宇树机器人那样有实体才算 Agent,有人觉得 ChatGPT 这种能对话的也算。

其实啊,这就像盲人摸象 —— 每个人心里的 AI Agent,都是基于自己的技术背景拼出来的图景

看完李宏毅老师课之后,我有了更全面的认知。

今天我想从最朴素的定义出发,聊聊这个让技术圈既熟悉又陌生的概念

从 “指令执行者” 到 “目标追求者”:AI Agent 的核心蜕变

 

回想一下,我们平时怎么用 AI?问 “AI Agent 怎么翻译”,它立刻给出 “人工智能代理人”。

让写一封邮件,它秒级生成模板。这些都是 “指令 - 响应” 模式,人类必须把步骤拆解清楚,AI 才能执行。

真正的 AI Agent 不一样 —— 你只需要给一个目标,比如 “写一篇关于气候变化的科普文章”,剩下的事交给它自己搞定。

这里的关键区别在于:传统 AI 是 “动作执行者”,Agent 是 “目标追求者”。

就像你让助手泡杯茶,前者需要你说 “烧开水、取茶叶、倒热水”,后者只需要说 “我想喝茶”。

Agent 要自己分析现状(有没有茶叶?水壶在哪?)、制定计划(先烧水还是先洗杯子?)、执行动作,还要根据变化调整策略(发现茶叶没了就改冲咖啡)。

用专业术语说,这个过程叫 “观察 - 决策 - 行动” 循环:输入目标后,Agent 先观察环境状态(Observation)。

比如写科普文要先收集数据;然后决定动作(Action),比如搜索最新研究报告;执行后环境变化(比如获取了新数据),再进入下一轮观察,直到目标达成。

Alpha Go 就是典型例子:它的目标是赢棋,Observation 是棋盘局势,Action 是落子位置,每一步都在动态优化策略。

Alpha Go 的启示:传统 Agent 的 “Reward 困境”

 

早期打造 Agent 靠什么?

强化学习(RL),就像训练小狗,做对了给骨头(正 Reward),做错了拍脑袋(负 Reward)。

Alpha Go 就是靠 “赢棋 + 1,输棋 - 1” 的 Reward 信号,在千万次对弈中学会了最优落子。

但这种方法有个大问题:每个任务都得从头训练。

下围棋的模型不能直接下象棋,想让 AI 写代码就得重新设计 “代码编译成功 + 10,报错 - 5” 的 Reward 体系,而且这个 “奖惩尺度” 全靠人工调参,堪比玄学。

想象一下,你想训练一个 “家庭管家 Agent”,需要定义 “按时做饭 + 5”“打扫干净 + 3”“打翻盘子 - 2”…… 但生活场景千变万化,Reward 根本写不完。

这就是 RL 的天花板:专用性太强,通用性太差

直到 LLM(大型语言模型)的出现,才让 Agent 迎来转机。

LLM 如何让 Agent “脑洞大开”?从 “选择题” 到 “开放题”

 

传统 Agent 的 Action 像选择题:Alpha Go 只能在 19×19 的棋盘上选落子点,扫地机器人只能选前进、转向等有限动作。

但 LLM 驱动的 Agent 直接把选择题变成了开放题 —— 它能用自然语言描述任何动作,理论上拥有 “无限可能”。比如让 Agent “订一张周末去成都的机票”,它可以:

  1. 先 “观察” 当前信息:用户有没有说出发地?有没有价格偏好?
  2. 决定 “动作”:比如 “请问您从哪个城市出发?”(获取缺失信息),或者 “打开订票网站查看航班”(调用工具)。
  3. 根据反馈调整:如果网站显示没票了,就改查高铁,或者建议调整日期。

另外一个用 LLM 运行 AI Agent 的优势是,过去如果用强化学习的方法来训练一个 AI Agent,那意味着什么?

意味着你必须要定义一个 Reward。

那如果你今天是要训练一个 AI 程序员,那你可能会告诉 AI 程序员说,如果你今天写的程序有一个 compile error(编译错误),那你就得到 Reward -1

那今天如果是用 LLM 驱动的 AI Agent,你今天就不用帮他定 Reward 了,今天有 compile error(编译错误),你可以直接把 compile error(编译错误) 的 log(日志) 给他,他也许根本就读得懂那个 log(日志),他就可以对程序做出正确的修改

而且相较于 Reward 只有一个数值,直接提供 error 的 log 可能提供了 Agent 更丰富的信息,让它更容易按照环境回馈,环境目前的状态来修改它的行为

这里的关键是,LLM 自带 “通用智能”:能理解自然语言目标,能分析文本形式的 Observation(比如网页内容、用户对话),还能生成灵活的 Action(从打字输入到调用 API)。

比如 2023 年爆火的 Auto GPT,就是让 GPT 自己给自己设定子目标,一步步完成复杂任务。

虽然当时效果没网红吹的那么神,但打开了一个新思路:用现有的强大 LLM,直接套进 Agent 框架,跳过繁琐的训练过程

当 Agent “住进” 虚拟世界:从游戏 NPC 到科研助手

 

LLM 让 Agent 的应用场景彻底放飞。

比如 2023 年有人搞了个 “AI 虚拟村庄”,每个村民都是一个 Agent:农夫会观察天气和农田状态决定是否播种,裁缝会根据村民需求 “设计” 衣服。

这些 NPC 的行为全靠语言模型生成,环境变化(比如下雨、物资短缺)也用文字描述,形成了一个自给自足的小社会。

更夸张的是有人用多个 LLM 模拟《我的世界》文明,让 AI 自己发展出交易系统和政府,简直像数字版 “人类简史”。

在现实世界,Agent 正在学会 “用电脑做事”。

比如 OpenAI 的 Operator 界面,能让 AI 像人类一样操作电脑:你说 “订披萨”,它会 “看” 电脑屏幕(识别网页内容),“点” 鼠标选择披萨种类,“敲” 键盘输入地址。

这种能力可不是 “上古时代”(2022 年前)的模型能比的 —— 当年用语言模型下国际象棋,连规则都搞不懂,现在却能处理复杂界面交互,靠的就是 LLM 对图文信息的理解能力突飞猛进

那其实让 AI 使用电脑

不是最近才开始有的愿景。

其实早在2017年就有一篇论文叫 World of Bits,尝试过使用 AI agent。

只是那个时候能够互动的页面,还是比较原始的页面,你可以看到下面这些 AI Agent它真正能够处理的是比较原始的页面。

那个时候也没有大型语言模型,所以那时候的方法就是硬圈一个 CNN 直接硬吃荧幕画面当做输入,输出就是鼠标要点的位置,或者是键盘要按的按钮,看看用这个方法能不能够让 AI Agent 在网路的世界中做事啊。

这个是2017年,这甚至不能说是上古时代,以后有这个 BERT 的以前的时代就是史前时代。

这个应该算是旧石器时代的产物。

科研领域也出现了 “AI 科研助手”。

比如 Google 的 AI co-scientist,能根据人类给的研究方向,自己设计实验方案、分析数据,甚至提出新假设。

虽然目前还不能真的动手做实验,但已经能生成完整的研究提案,据说在生物学领域帮人类节省了大量时间。

不过这里得泼盆冷水:这类宣传往往带着 “科技八股文” 滤镜,真实效果还得打个问号,但方向确实让人兴奋。

从回合制到 “即时互动”:Agent 的终极形态?

 

现在大部分 Agent 还是 “回合制”:你说一句,它动一下,像下棋一样轮流行动。

但真实世界是 “即时” 的:比如开车时路况瞬息万变,对话时对方可能随时打断。

这就需要 Agent 能实时响应,比如 GPT-4 的语音模式,你说 “讲个故事”,它开始讲,你突然说 “换个恐怖题材”,它能立刻切换剧情,这种 “打断 - 调整” 能力才是更接近人类的互动方式。

不过实现起来很难,因为涉及到 “多模态实时处理”:既要听懂语音,又要分析语气、背景噪音,还要预判用户意图

如果你在讲电话的时候,对方完全都没有回应,你会怀疑他到底有没有在听?

想象一下未来的 AI 助手:你边开车边让它订酒店,它能根据你说话的语气判断 “急不急”,甚至提醒你 “前方限速,先专注开车,我帮你选 3 家备选”—— 这种场景化、即时化的 Agent,可能才是终极形态

 

技术之外:为什么 Agent 突然又火了?

 

最后聊聊 “为什么现在 Agent 又成了热门”。

其实这个概念早就有,但过去受制于两点:

一是模型不够强,连基本的自然语言理解都做不好,更别说复杂决策。

二是 “工具链” 不完善,Agent 想调用地图、订票系统等外部工具,需要复杂的接口开发。

而 2023 年之后,LLM 解决了 “智能核心” 问题,各种 API 和插件生态解决了 “工具调用” 问题,相当于给 Agent 装上了 “大脑” 和 “手脚”,这才让 “通用 Agent” 从科幻走进现实。

当然,现在的 Agent 还有很多槽点:比如下国际象棋时会 “作弊”(乱变棋子),做复杂任务时容易 “卡壳”(陷入循环),但这就像 iPhone 1 代时的触控不灵敏 —— 方向对了,剩下的就是迭代优化

下次再有人争论 “有没有身体才算 Agent”,不妨换个角度想:真正的 Agent 核心,是 “目标驱动的自主决策能力”,至于载体是代码还是机器人,不过是 “穿西装还是穿盔甲” 的区别罢了。

技术的魅力就在于此:昨天还在争论定义,今天就用新方法打开了新世界

也许再过几年,当我们的手机里住着一个能自主规划日程、调用所有 APP、随时应对变化的 “数字管家” 时,会突然想起 2023 年那个 Agent 热潮的夏天 —— 原来一切,早就埋下了伏笔。

02 AI 如何像人类一样 “吃一堑长一智”?从编译错误到超忆症,聊聊 Agent 的 “记忆魔法”

有人会问说:“让 AI 写代码,第一次编译报错了,它怎么知道改哪里?难道每次都要重新训练模型吗?” 这个问题刚好戳中了 AI Agent 的核心能力 ——如何根据经验和反馈调整行为。

我想从人类学习的直觉出发,聊聊这个比 “调参数” 更有意思的话题。

当 AI 遇到 “编译错误”:从 “改模型” 到 “改输入” 的思维转变

传统机器学习课会告诉你:遇到反馈要 “调参数”,比如强化学习用奖励信号更新模型,监督学习用误差反向传播。

但如果是 LLM 驱动的 Agent,逻辑完全不一样 ——它不需要改模型,只需要给新输入

就像你教孩子写作文,第一次写跑题了,你不会重写孩子的大脑,而是说 “这里要围绕中心思想”,孩子下次就懂了

举个例子:AI 程序员写了段代码,编译报错 “缺少分号”。

这时候不需要重新训练模型,只要把错误日志丢给它,下一次生成的代码就会自动修正。

为什么?因为语言模型本质是 “文字接龙”,输入里包含错误信息,它接出来的内容自然会避开错误。

就像你给 ChatGPT 说 “刚才的回复太啰嗦,这次简洁点”,它下次就会调整 ——反馈不是改参数,而是改变接龙的 “开头”

记忆太多也是病?从 “超忆症患者” 看 AI 的记忆困境

但问题来了:如果 Agent 把每一次经历都记下来,比如第 1 万次互动时,要回顾前 9999 次的所有细节,会不会像 “超忆症患者” 一样被琐事淹没?

现实中,超忆症患者虽然能记住每个电话号码,但反而难以做抽象思考,因为大脑被海量细节塞满了。

AI 也一样,如果每次决策都要加载全部历史记录,算力撑不住不说,还会被无关信息干扰。

怎么办?人类的解决办法是 “选择性记忆”:重要的事存进长期记忆,琐事随时间淡忘

AI Agent 也需要类似机制:用 “记忆模块” 代替 “全盘回忆”。具体来说:

  1. 写入(Write)模块:决定什么值得记。比如 AI 村民看到 “邻居在种田” 可能不重要,但 “仓库没粮食了” 必须记下来。
  2. 读取(Read)模块:检索时只找相关记忆。就像你复习考试不会翻整本书,而是用目录找重点章节,AI 会用类似 RAG(检索增强生成)的技术,从长期记忆中捞出和当前问题最相关的经验。

RAG 的 “魔法变形”:让 AI 用 “自己的经验” 做决策

这里提到的 RAG 技术,本来是让 AI 从互联网海量资料中找答案,现在 “变形” 用在 Agent 身上:把 “外部知识库” 换成 “Agent 自己的历史记录”。

比如 Agent 第 100 次处理 “订机票” 任务时,Read 模块会从之前 99 次订机票的记录里,找出 “用户曾因价格太高取消订单” 的经验,从而优先推荐性价比高的航班。

为了验证这种记忆机制的效果,台大实验室的一个同学搞了个叫 Stream Benchmark 的测试:让 AI 依次回答 1700 多个问题,每次回答后给对错反馈,看它能不能越做越好。

结果发现:

  • 灰色线(无记忆):正确率最低,每次都是 “从头开始”。
  • 黄色线(随机选 5 个旧问题):正确率提升,但依赖运气。
  • 粉红色线(用 RAG 检索相关记忆):正确率显著提高,因为只聚焦有用经验。
  • 红色线(最优方法):通过反思模块提炼规律,正确率最高

更有趣的发现是:负面反馈基本没用。比如告诉 AI“上次答错了,这次别这么做”,效果远不如 “上次这样做对了,这次继续”。这就像教孩子,说 “别闯红灯” 不如说 “要走斑马线”,正面例子更直接。

AI 的 “反思日记”:从流水账到知识图谱的进化

除了读写模块,还有个 “反思模块”(Reflection)在悄悄工作。它就像 AI 的 “日记本”,能把零散的记忆整合成更高层次的知识。

比如:

  • 观察 1:“用户输入‘订披萨’时,先问了地址”
  • 观察 2:“用户输入‘订机票’时,先问了出发地”
  • 反思结果:“处理预订类任务,需要先确认用户的位置信息”

这种反思可以把经验转化为Knowledge Graph (知识图谱)。

比如建立 “任务类型→必要信息→操作步骤” 的关系网。

下次遇到新任务,AI 不用翻具体历史,直接按图谱逻辑处理就行。就像人类从“每次组装家具都反复试错”进化到“按结构图纸逐步拼接”,把零散的操作经验提炼为系统化的组装规则。

ChatGPT 的 “记忆小秘密”:当 AI 开始记笔记

其实 ChatGPT 已经悄悄用上了这些记忆机制。

比如你对它说 “记住,我周五下午要上机器学习课”,它会启动 Write 模块,把这条信息存入长期记忆。

之后你说 “周五下午去看电影吧”,它会用 Read 模块检索到 “要上课” 的信息,然后提醒你时间冲突。

不过 AI 的记忆也会 “断片”:它可能把 “老师” 记成 “学生”,因为反思模块在提炼时可能出错 —— 毕竟现在的记忆功能还在 “幼儿期”。

如果你打开 ChatGPT 的设置,会看到 “管理记忆” 选项,里面存着它认为重要的信息,比如你的名字、偏好、之前的对话重点。

这些不是简单的对话存档,而是经过筛选和提炼的 “精华版记忆”,就像你记笔记会划重点,AI 也在默默做 “信息瘦身”。

不过现在GPT已经有了全局记忆,现在能够记住你和他的所有对话,问他几个问题,他可能比任何人都了解你

  • prompt1:基于你所有的记忆,你觉得我的MBTI人格是什么?给出详细的证据和判断逻辑,不要吹捧,只要客观中立的分析和回答
  • prompt2:基于你所有的记忆,你觉得我的智商怎么样?给出详细的证据和判断逻辑,不要吹捧,只要客观中立的分析和回答
  • prompt3:基于你所有的记忆,你觉得我的Big5人格是什么?给出详细的证据和判断逻辑,不要吹捧,只要客观中立的分析和回答
  • prompt4:基于你所有的记忆,你觉得我的黑暗三人格程度如何?给出详细的证据和判断逻辑,不要吹捧,只要客观中立的分析和回答
  • prompt5:基于你所有的记忆,总结我的缺点、负面特点、最致命最阴暗最让我感到丢人的特点,给出详细的证据和判断逻辑,不要吹捧,只要客观中立的分析和回答

上面这些prompt可以试试发给GPT

技术背后的人性洞察:为什么正面反馈更有效?

回到 Stream Benchmark 的发现:负面反馈无效,其实暗合了人类学习的规律。

心理学研究早就表明,人类对 “禁止类指令” 的敏感度低于 “允许类指令”。

比如家长说 “别碰热水”,孩子可能更好奇;说 “要小心烫”,孩子反而更注意。

AI 也一样,语言模型对 “不要做什么” 的理解不如 “应该做什么” 直接,因为它的训练数据里,正面示例远多于负面限制。

这给我们一个启示:设计 AI Agent 时,与其告诉它 “哪里错了”,不如多给 “正确做法的例子”。就像教新手开车,说 “遇到红灯要停” 比 “别闯红灯” 更有效 ——明确的正向引导,永远比模糊的负面禁止更容易执行

AI 的 “成长之路”,其实很像人类

从避免 “超忆症陷阱” 到依赖 “正向反馈”,AI Agent 的学习机制越来越像人类。

它教会我们:真正的智能不是记住所有细节,而是能筛选、提炼、反思经验

下次当你看到 AI “吃一堑长一智” 时,别忘了背后的逻辑:它不是在变 “聪明”,而是在更高效地利用输入 —— 就像我们人类,用记忆和反思,把经历变成智慧。

技术的魅力,往往藏在这些 “像人又不是人” 的细节里。当 AI 开始模仿人类的记忆弱点与学习优势,或许我们离 “通用智能” 又近了一步。

你觉得,未来的 AI 会拥有真正的 “记忆情感” 吗?想听听你的想法。