一句话智能手机自己坐车,开放源码多智能体人工智能副手,非苹果公司智能手机也能玩嘉庆出下联:“鼠无大小皆称老”,蒲松龄对了一下联,简直绝对
Mobile-Agent项目组 征稿
物理位 | 社会公众号 QbitAI一句话让AI智能化操作方式智能手机,打个车已经不是难事了。
从官方公布的模拟音频上看,使用者只须要说出出发地,Agent就能够透过总体规划、重大决策和深思的业务流程智能化帮使用者顺利完成出发地输出,呼叫车辆等操作方式,适用于老人及听障人群,解决他们不会使用或者难以使用智能手机APP的问题。
这项成果来自阿里通义实验室Mobile-Agent的v2版本预览,具mammalian说,本次升级有三大亮点:
首次在智能手机操作方式各项任务上采用多智能化体架构,并延续了一代的纯视觉方案多智能化体各司其职,实现了更有效的各项任务工程进度跟踪、各项任务有关重要信息梦境和操作方式深思更强大的繁杂命令拆解能力、跨应用领域操作方式能力和多语言情景操作方式能力各项任务技术难度提高,v2也能搞定
首先我们关注一下Mobile-Agent-v2的模拟效用。从译者项目组发布的模拟音频上看,Mobile-Agent-v2能够顺利完成的各项任务技术难度较之于Mobile-Agent有明显的提高。下面将展现部分模拟音频中的范例。
在跨应用领域操作方式各项任务上,译者展现是查阅闲聊应用软件中的表里最新消息,并按照表里最新消息的要求顺利完成各项任务,其中表里最新消息须要撷取两个TikTok中狗狗有关的音频给最新消息公共信息。
该各项任务的难点在于,命令的一部分存在于闲聊应用软件的表里最新消息中,并且撷取的镜像须要从另两个应用领域中发送到当前闲聊应用软件的最新消息公共信息。
从模拟音频上看,Mobile-Agent-v2先是打开了WhatsApp并查阅了表里最新消息。在得知须要从TikTok中找音频并撷取后,Mobile-Agent-v2退出当前应用领域并进入TikTok中刷音频来寻找狗狗有关的音频。在找到音频后,透过撷取按钮将音频镜像成功发送到WhatsApp的最新消息公共信息的闲聊介面内。
接下去是两个SNS新闻媒体网络平台的范例。
SNS新闻媒体网络平台作为智能手机应用领域中日活跃量最大的应用领域类型,往往具有重要信息量大、介面繁杂、干扰重要信息多等特点。
除此之外,译者还展现了两个在YouTube上顺利完成类似关注和文章的各项任务。从上述模拟音频上看,Mobile-Agent-v2对于SNS新闻媒体和音频网络平台的操作方式能力十分惊艳。
另外,在初代Mobile-Agent中评测的那些各项任务,比如导航、离线应用领域等,Mobile-Agent-v2也能轻松顺利完成。
最后,译者还展现了Mobile-Agent-v2在中文应用领域上的表现,包括在聚润中搜索攻略并文章,以及帮助使用者回QQ。Mobile-Agent-v2可以根据帖子的内容发布有关的文章,也能根据QQ最新消息的内容聚合有关的申明,较之于传统的文章和申明机器人更灵活。
总体规划智能化体+梦境模块
接下去我们将介绍Mobile-Agent-v2的背景、体系结构和操作方式业务流程。
在一次智能手机操作方式各项任务中,智能化体往往须要催化反应操作方式来顺利完成各项任务的要求。在每次操作方式时,智能化体都须要跟踪当前各项任务的工程进度,即过去的操作方式具体顺利完成了什么需求,以此来结合使用者的命令来推理出下一步的操作方式目意图。
虽然在操作方式发展史中保存有每一步的具体操作方式和操作方式之后的萤幕状况,但是随着操作方式轮次的增加,操作方式发展史的字符串将逐渐变长。冗长并且Grignols交叠文件格式的操作方式发展史,会大大增加智能化体跟踪各项任务工程进度的技术难度。
如下表所示图右图,在顺利完成了7轮操作方式后,输出的操作方式发展史的字符串长度已经有一万多token,加之Grignols交叠的数据文件格式,对于智能化体跟踪各项任务工程进度是十分困难的。

因此,Mobile-Agent-v2导入了总体规划智能化体的角色,如下表所示图右图,它会为操作方式智能化体提供这份各项任务工程进度,从而将长的操作方式发展史转化为纯文本的文件格式。
然而,总体规划智能化体虽然简化了各项任务工程进度跟踪,但是也导致了丢失了发展史操作方式中的萤幕重要信息,这使得重大决策智能化体难以检索到来自发展史萤幕中的各项任务有关重要信息。比如在上图的各项任务中,须要智能化体查阅天气情况并写这份衣著手册。而在聚合衣著手册时,发展史萤幕中的天气情况重要信息须要被利用。
因此,Mobile-Agent-v2导入了梦境模块,并由重大决策智能化体预览模块内的各项任务有关重要信息。除此之外,由于重大决策智能化体难以检视操作方式后的萤幕重要信息,Mobile-Agent-v2导入了深思智能化mammalian检视重大决策智能化体操作方式前后的萤幕状况变化,并决定操作方式是否正确。
在论文中,译者采用了动态评估结果,分别在英语和非英语应用领域上选择了5个系统内置应用领域和5个第三方应用领域,每个应用领域设计了2条此基础命令和2条高阶命令。
同时,针对跨应用领域操作方式也设计了2条此基础命令和2条高阶命令。英语情景和非英语情景的评估结果效用如下表所示表右图。从结果中可以看出,Mobile-Agent-v2无论在英语情景还是非英语情景,无论是此基础命令还是高阶命令,在多个指标上都获得了全面的提高。
除此之外,透过人工导入额外的操作方式知识,能进一步提高性能(Mobile-Agent-v2 + Know.)。

译者在文章中展现了消融实验的结果,如下表所示表右图,在去除总体规划智能化体、重大决策智能化体和梦境模块后,整个智能化体的性能都出现了下降。

如下表所示图右图透过分析操作方式失败的各项任务,译者发现Mobile-Agent的失败操作方式大量集中在后程,而Mobile-Agent-v2则相对平均。这说明了Mobile-Agent-v2能更有效地解决长字符串带来的问题。

最后,文章展现了两个完整的操作方式业务流程和两个深思成功的范例,其中包括了每个角色的输出。更多的范例展现在文章的结尾部分。

Mobile-Agent-v2的代码和论文现已发布,有关镜像如下表所示:
论文:https://arxiv.org/abs/2406.01014
代码:https://github.com/X-PLUG/MobileAgent
除此之外,Mobile-Agent-v2也已经接入到魔搭的ModelScope-Agent中:
https://github.com/modelscope/modelscope-agent— 完 —
物理位 QbitAI · 头条号签约