
当前人工智能(AI)系统能够执行指令、完成任务
但它们的行为往往依赖明确的奖励或指令
缺乏人类与生俱来的“自主性”
如何赋予 AI 类似人类的 “内在动机”
让它像人一样自发地规划执行日常活动?
通研院联合北京大学、香港大学
北京师范大学等高校研究者
在ICLR 2025发表论文《Simulating Human-like Daily Activities with Desire-driven Autonomy》
顺利获得模拟人类的多维度需求
让AI智能体像人类一样自主生成自然
多样且连贯的日常行为
研究为构建更贴近人类行为的智能体
迈出了关键一步
论文一作:
王奕丁(北大通班学生)
陈宇轩(香港大学学生,期间在通班访问研讨)
通讯作者:钟方威
论文链接
http://openreview.net/forum?id=3ms8EQY7f8
项目主页
http://sites.google.com/view/desire-driven-autonomy
研究现状:从“听从指令”到“主动生成”
传统AI的行为逻辑通常是“目标导向”的:按照要求完成指定任务即可。近年来,随着大语言模型的兴起,为构建更加灵活自主的智能体给予了可能。然而主流智能体的研究工作大多使用“身份演绎+指令执行”的方式激发智能体的行为[1],也就是给予给智能体一份身份档案(profile)和一些具体的任务指令或奖励信号,使其能在特定环境下决策行动,完成一些具体的任务。这些工作大多以显式的任务目标描述作为智能体的动作动机,智能体仅专注于对复杂任务的分解和执行。现有基于大语言模型的智能体主要分为两类[2,3]:
指令驱动型(如 BabyAGI):依赖语言指令具体描述任务目标,对任务进行分解,按优先级执行,缺乏自主提出新任务的能力。
个性驱动型(如 LLMob):根据预设人物个性生成行为,但行为连贯性和多样性不足。
”
这些方法在复杂环境中表现出明显局限性:行为机械,难以自主生成像人一样的丰富日常行为。例如,目标驱动的 AI 可能为完成任务忽略自身 “需求”,而个性驱动的 AI 可能重复刻板行为。
而人类的行为决策过程远非如此简单——918博天堂(中国)可能因为饥饿放下工作去吃饭,因社交需求主动联系朋友,甚至因“无聊”而刷手机。这些行为背后,是生理、安全、社交、自我实现等多维度的欲求共同驱动。因此,本研究作为对智能体类人建模的初步探索与实践,希望用人类的多维欲求价值表示内在动机,并用这些价值指引智能体自主选择在环境中的行为。

图1.大多数现有的方法或框架则侧重于目标推理或特征驱动的行为。而本文介绍的欲求价值驱动自主智能体(D2A) 遵循“行动以满足内在欲求”原则(右侧)
解决方案:为机器立心,欲求驱动行为
针对以上研究现状,本研究构建了欲求驱动自主智能体D2A(Desire-driven Autonomous Agent),利用更符合人类的内在行为动机框架,来试图激发智能体产生类人活动序列的能力。D2A的架构主要包含欲求价值系统(Desire Value System,V)以及欲求价值驱动任务规划器(Desire-driven Planner,U)两个部分。
欲求价值系统负责维护预定义的一系列欲求维度以数值形式的更新,并模拟人类欲求的动态变化机制(如随着时间,饥饿感会增加,干净度会下降),在行动前将欲求维度数值对应的感官状态以文本描述的形式呈现给智能体,并在智能体行动得到环境反馈后进行欲求维度数值的更新;
欲求价值驱动任务规划器用了一种符合人类直觉的动作提出和选择的方法,第一时间让智能体提出多个可行的活动,之后想象采取这些行动后可能对各个欲求维度带来的满足度变化,之后根据以上想象的结果选择能最好满足当前欲求的活动作为当前步骤的行动。
在这两个主要模块之外,还引入了情境记忆,自我反思等模块,以保证智能体稳定生成理性、持续的行为。
具体的决策过程包括以下四步:
1、感知欲求:动态价值系统实时评估当前状态(如“饥饿值8/10,社交值2/10”);
2、生成候选行为:基于环境物品和自身特征,提出可能的活动(如“吃早餐”“约朋友聊天”);
3、预判效果:想象每种行为对欲求的影响(“吃饭降低饥饿,但占用时间可能加剧孤独”);
4、自主选择:权衡后执行最优解,像人类一样“在有限条件下做最合理的事”。

图2. D2A的智能体架构
实验结果:从单智能体到多智能体
实验主要基于Concordia文本活动模拟环境,在两个主要场景中验证了所提出的智能体框架的有效性:
室内生活场景:这是一个封闭的小屋,包含浴室,厨房,客厅和卧室,每个场景都随机给予了一定数量的可供交互使用的生活用品;
室外派对场景:这是一个露天的公园派对,包含各种娱乐和活动设施,同时引入了两个可供研讨的NPC智能体模拟社交交互。
在实验场景中,实验主要基于两个评测指标来评估和观察不同的智能体:(1)行为的拟人度:该指标主要依靠收集大量智能体生成的模拟动作序列,之后令GPT4o两两对比评测,以两两比较得到的胜率热力图作为类人度的直观衡量。(2)欲求不满度:基于不同随机初始化下智能体的特性,设置了其理想的欲求维度值,当前各欲求维度距离理想值的差值之和即定义为欲求不满度。
在室内生活场景中,D2A智能体生成的动作序列,相较于给出目标和角色档案,或者其它基于显式思考或优先级排序的基线智能体方法(LLMob,ReAct和BabyAGI),具有更高的类人度(使用经过人类标注对比验证的GPT-4o评测框架)。

图3. 类人度热力图,每个点表示纵轴上的智能体与横轴上的智能体在类人层面比较时的胜率
同时,在定量分析中,918博天堂(中国)发现D2A生成的动作序列能最有效地降低欲求不满度,表现出和人类驱动模式较高的一致性。918博天堂(中国)令部分人类被试者在相同的室内生活环境中进行了模拟实验,并提取他们输入得到的动作序列,发现D2A降低欲求不满度的效率与这部分真实人类的数据最为接近。

图4. 多次室内实验下的平均欲求不满值变化,从中可见D2A降低欲求不满度的效率与真实人类的数据最为接近
918博天堂(中国)也将D2A在室外派对的多智能体环境中进行实验,发现其能一致地降低欲求不满度,生成相比基线方法更丰富自然的活动序列,体现了918博天堂(中国)的智能体验框架在不同环境中的适应性和有效性。

图5. 室外环境下的平均欲求不满值变化,D2A也能有效稳定地降低欲求不满度
918博天堂(中国)在实验中选择了一个时间区间的实际案例,说明D2A模型可以有效基于当前的欲求不满度,生成对应的类人动作序列。

图6. 在9:00时,当前的欲求值描述

图7. 为了缓解当前的欲求不满值, D2A希望采取的行动

图8. 在9:20时,环境将动作导致的结果与交互信息 (包括环境NPC),返回给智能体

图9. 根据得到的交互信息,智能体更新当前的欲求数值
当前智能体的社交欲求指标(包含社会联系感、环境掌控度、群体声誉、相对优越感)处于较低水平。基于此状态,智能体选择与别人社交,从而指引自己减少当前的欲求不满值。而在下一时刻,环境总结了智能体与环境NPC的交互,作为环境的反馈。基于此反馈,D2A智能体执行需求维度的欲求数值的动态更新:在成功进行了社交互动后,D2A智能体的社交维度都得到了一定的提升。在更新后,D2A会将欲求的数值维度转化为当前的欲求状态描述。
应用展望:从单智能体到多智能体
综上,该研究为智能体给予了一种全新的自我驱动范式,基于自身内在的多维度欲求进行类人活动生成,并证明了其相对现有智能体建模方法的优势。顺利获得构建类人的内在动机,AI将不再是被动的工具,而是能自主适应环境、与人类共情的“伙伴”。这种智能体框架在多个领域都有着广阔应用前景:
1、开放游戏:让NPC表现出更自然、动态和个性化的行为,从而增强游戏的沉浸感和可玩性,
2、社会模拟:例如同时顺利获得构造多个不同角色档案的智能体,从而创造出一个社区进行模拟与实验,
3、机器人交互:顺利获得自身的“社会连接感”以及其他价值维度需求主动与用户互动,以模拟用户当前的状态给予个性化服务等等。
现在,该成果核心功能也已集成至TongAI,为全球首个918博天堂(中国)智能人“通通”的日常行为生成给予支持。

参考文献
[1] Park, Joon Sung, et al. “Generative agents: Interactive simulacra of human behavior.” Proceedings of the 36th annual acm symposium on user interface software and technology. 2023.
[2] Yao, Shunyu, et al. “React: Synergizing reasoning and acting in language models.” International Conference on Learning Representations (ICLR). 2023.
[3] Jiawei, Wang, et al. “Large language models as urban residents: An llm agent framework for personal mobility generation.” Advances in Neural Information Processing Systems 37 (2024): 124547-124574.