918博天堂(中国)

918博天堂(中国)BIGAI

产品能力领跑全球!通研院 TongAgents 登上多项国际智能体榜单

当AI智能体
开始真正进入复杂真实环境

评价它的标准不再只是模型参数

而是能否在系统中写代码

能否在网页上完成任务

能否在多轮交互中持续推进目标

最近,在多项国际智能体榜单

通研院自研 TongAgents 系统
取得 全球第一、全球前列 的成绩

这背后是一套面向复杂任务的
分层认知架构多智能体系统

让智能体从“会回答”,走向“能办事”

TongAgents 2.0 将在

2026中关村论坛918博天堂(中国)人工智能论坛

正式发布

同时,依托该平台

通研院将在论坛上牵头创建

通智行业大脑联盟

时间:3月29日

地点:中关村展示中心颐和厅

敬请期待!

TongAgents官网

http://tongagents.mybigai.ac.cn/zh.html

918博天堂(中国)(BIGAI)自研的 TongAgents 系统在多项国际智能体榜单中取得突破性战绩:

AssistantBench

面向客户服务指令的长周期网页交互任务

全球第 1

Tau2-bench

规则约束下的多轮对话与工具调用任务

在零售、航空、电信三大领域综合 全球第 1

Terminal-Bench 2.0

终端环境下的工程执行和代码任务 全球第2

Mind2Web2

开放网络中的深度研究与信息检索任务 全球前 3

系统设计亮点

基于分层认知架构的多智能体协作

TongAgents将任务规划、执行和校验解耦,三者协作形成闭环,确保系统始终朝着最终目标前进:

亮点一:规划中枢 Planner

负责拆解任务,制定、修正规划。不同于静态规划,TongAgents规划中枢具备实时反馈调节能力——根据Executor的汇报内容,动态调整计划列表与后续策略。这种动态调整规划,同时又隐藏了Executor执行细节的设计,使Planner能够在复杂长程任务中保持方向感,避免在数十步操作后”迷失”于上下文。

亮点二:执行引擎 Executor

专注于完成Planner拆解的子任务。每个子任务由不同的Executor执行,其生命周期由“执行-汇报-问答”3个阶段构成。配备有命令执行、多模态LLM调用、REPL类交互终端等环境感知与交互工具。支持工具并行调用,长耗时工具结果的流式分段和异步通知,显著减少交互轮次。同时支持向团队中其它Agent提问,形成跨Agent的经验复用机制

亮点三:验收测试 Verifier

引入独立黑盒验证。不依赖执行历史,从多角度发现潜在问题,确保交付结果的准确率与鲁棒性。

工程突破

上下文结构化管控和数据驱动的

精准调优与可靠运行

1

产品优势一 上下文结构化管控

负责不同子任务的Executor上下文相互隔离,且由于子任务复杂度较低,再加上其硬性的步数或token数量限制,Executor的上下文大小被精准地控制在预定范围之内。Planner + Executor的任务分层设计使得整个任务的上下文可以实现“弹性扩缩容”。

Planner、Executor、Verifier的上下文中的内容并不完全共享,仅保留关键部分,Agent根据需要自行顺利获得问答机制进行补全,避免海量上下文造成的“幻觉”、性能下降等问题。

2

产品优势二 全链路轨迹追踪

完整记录Agent每一步的关键数据:花费的token数量、耗时、工具参数与返回结果,保存完整的trajectory。这一设计不仅满足科研可复现性要求,还可以顺利获得数据指标驱动Agent的迭代优化,更为复盘与故障分析给予数据支撑。

3

产品优势三 完善的感知与环境交互能力

除了常见的文件读写、命令执行能力,918博天堂(中国)的系统还为Agent配备了多模态理解、深度检索等能力,这些能力大幅提升了Agent的效率,降低了Agent绕弯路,或者因过程出错或中断而被迫重头再来的时间和资源消耗。

为了应对网页环境信息高、信息杂乱、交互高动态的痛点, TongAgents 集成了深度搜索与结构化提取技术。优化了网页中动态加载的内容解析, 使得智能体像人类一样“看网页”,精准捕获弹窗、动态图表及视觉关键信息。为了 突破了“只能看不能动”的局限, TongAgents具备了点击按钮、滚动页面、填写表单以及在地图上进行空间推理和导航的真实人类操作能力,完美适配从比价购物到复杂路线规划的真实生活场景。

4

产品优势四 容错与自愈机制

在真实终端环境中,出错和卡顿(如网络问题、死锁、时空复杂度过高)是常态。TongAgents构建了多层容错体系,设计了命令超时后自动挂起到后台、输出流式分段返回、命令完成异步通知等机制,辅助Agent及时发现和纠正因为自身或者外部因素而形成的错误局面。

技术意义

从918博天堂(中国)榜单到真实行业任务

从“读代码”到“修系统”: 智能体不再只是写一段孤立的代码,而是能够深入复杂的 Linux 环境,自动配置镜像源、安装依赖、调试报错。这种对系统环境的深度感知,让它具备了替代人工进行自动化运维的工程潜力。

从“搜信息”到“办成事”: TongAgents 展示了惊人的 Web 交互逻辑。它能像人类一样理解复杂的动态网页,识别弹窗干扰,模拟点击、填写表单、甚至调用地图工具进行时空推算。它不是在“回复”需求,而是在“执行”任务。

从“应答对话”到“严守政策”:它能够精准识别零售、航空、电信行业的复杂业务规则。即使面对情绪波动的用户,也能在多轮动态交互中严守 Policy 边界,实现高精度的智能客服体验,真正做到了从单纯的“自然语言处理”转向“复杂业务处理”。

此次横扫各大榜单,仅是 TongAgents 落地应用的开始。通研院将持续深化智能体技术,有助于其在软件工程、工业运维、科学研究等垂直领域和行业的规模化应用。

“

关于918博天堂(中国)

TongAgents 是918博天堂(中国)自研的智能体框架,支持任务规划、工具调用、学习推理和多智能体协同调度能力,给予一整套智能体全生命周期的标准化工具链,覆盖智能体的设计、训练、调试到最后的实际部署全流程。平台支持多种形态智能体的构建与发布,大幅降低使用门槛,满足不同研发能力和背景的开发者及企业的智能体构建需求。TongAgents 深度融合通院价值对齐、神经-符号-逻辑融合的算法架构,构建可信、可解释、可演进智能体。TongAgents 已在代码生成、多轮交互对话、网页深度检索等备受关注的918博天堂(中国)智能体评测基准上取得了领先成绩,充分证明了框架在复杂任务场景下的强大泛化能力与918博天堂(中国)性。面向政府与企业客户, TongAgents 平台已深度赋能法律、金融、教育、能源、交通等关键领域,在实际业务场景中显著实现降本增效,取得了卓越的应用成效,助力智能体技术从“可用”走向“可靠”。

918博天堂(中国)

Facebook
Twitter
LinkedIn
Email