开放世界移动运营的突破!第一个内部移动抓取多模式代理已经

作者: bat365在线平台官网 分类: 随心杂谈 发布时间: 2025-06-22 10:14
开放世界移动运营的突破!第一个内部移动抓取多模式代理已经揭幕,微型模型真实环境的零样本精度达到90% 在家庭服务机器人领域,如何使机器人能够理解开放环境中的自然语言指示,动态的行动计划和行为操作一直是学术和工业界的主要挑战。最近,上海人工智能实验室与新加坡国立大学,香港大学和其他机构的研究团队结合,提出了OWMM -Agent Ombod的代理 - 为开放世界移动OWMM(OWMM)设计的第一个多模式代理(VLM Agent)架构,该架构是针对首次了解整体模型和整体场景的状态动作,并将其统一的模型构建。同时,该工作通过模拟器和F综合了代理的轨迹数据Ine对这项工作的多模式大owmm-vlm模型。在实际的环境测试下,该模型的零样本单步操作的准确性达到90%。论文链接:https://arxiv.org/pdf/2506.04217github主页:https://github.com/hhhyhrhy/owmm- agent-特工1。背景问题确定移动场景在预建3D造型或语义图场景中的移动场景不仅可以与之交易,而且还不只是时间和困难,并且无法与之交易。 OWMM任务的主要困难是:全局场景推理:必须结合自然语言指令和视觉信息,以了解整个场景的布局和对象信息。体现决策封闭循环:实时监视机器人状态(例如当前位置和长期工作实施状态),并产生符合物理障碍的动作(例如,理解需要一定距离才能采取行动);系统集成问题:VLM基本模式很难l直接输入机器人需要控制的基础目标(例如目标导航的坐标,获取对象坐标等)。 2. OWMM-Agent: Use VLM to redevelop OWMM-Agent's architecture proposed by the "brain" research team, which allows the bottlenecks above through two major innovations: 1. The multimodal agent's architecture allows the multimodal model to perform end-to-end operations (owmm) of cycling problems (and problems with pagpoption (grounding). Long-term environmental memory: Use multi-view scenes obtained in the预映射阶段(如图1中的历史框架所示),发展了理解全球场景的能力,并支持复杂说明的空间推理(例如“从杆凳上获取事物,并将其放在瞬态状态”);步伐空间设计:VLM模型直接进行操作,并以自我为中心的观察器储存RGB空间坐标参数,通过功能调用传统路径计划者(路径计划者)和机器人ARM运动计划者(运动计划者),并且不依赖于策略技能。图1:OWMM代理框架和操作接口设计2。多模式代理微调数据合成。为了解决机器人字段中VLM基本模型的“幻觉”问题,团队设计了基于居住平台的数据综合方案:任务模板驱动程序:基于模拟环境,工作过程由PDDL语言定义,并且OWMM情节自动生成。最终数据集基于143个模拟方案,157种可以获得的项目和1,471个容器,并收集了200,000多个多画形文本数据集;世界的符号建模:使用实际数据值数据(例如对象坐标,机器人状态,PDDL STATe)标记许多文本文本图像以防止手动注释成本; Multimoda Improvementl:重写GPT-4O的文本内容和文本摘要,并介绍第一视图机器人图像,以增强数据多样性和语义接地功能。该团队使用模拟合成的多模式数据,以基于Intern-VL 2.5 8b/38b微调为OWMM获得专用OWMM-VLM模型。图2:OWMM-VLM III。 Eksperimentong Pag-verify: Simulation at Real Environment Double Breakthrough Sa Kapaligiran ng Simulation, ang OWMM-VLM Model ay nagpapakita ng makabuluhang pakinabang: "Single-Step Capability: Sa tatlong pangunahing gawain ng" Ego-Centric Action Decision "," Image Retrieval ", at" Posisyon ng Pagkilos ", ang Kawastuhan Ng OWMM-VLM-38B NA型号380亿个参数Na Naabot 97.85%,87.54 88%超过GPT-4O(48.53%,46.46%,7%,7%)和模块化解决方案(例如GPT-4O+Robopint)OWMM-VLM-38B OWMM长期移动抓取任务的成功率达到21.9%,零死周期;尽管基线模型的成功率小于1%,但由于大量的幻觉和误差积累,并且经常被困在死周期中。图3:在模拟环境中,单个动作动作和完整的OWMM订单测试的结果更为重要。现实世界环境测试:在Fetch机器人中,该模型达到了零样本的作用成功率90%(在30个试验中有27个成功)。例如,通过将牛奶车大豆从桌子移至会议桌的工作,模型精确b坐标以显示强大的能力。在房地机部署实验中,团队采用了Robi Butler的工作提供的多模式接口,人们通过VR设备控制内部机器人系统,并移至OWMM-Agent的框架。 4。未来的观点:搬到通用家具机器人这个螺柱Y证实了VLM模型的第一次模型,即微调数据可能是开放世界移动操作的一般主要模型。同时,这项工作也有局限性。当前的过程假设了相对令人耳目一新的环境构建,并假设与目标工作相关的观察结果是在记忆中,并且对复杂的机器人臂(例如多指手手)的控制有限。在对衰老社会服务机器人的需求提升的巴马中,Owmm-Agent的成功为“可以聆听,观看和做”的普通助理奠定了基础技术基础。也许在不久的将来,我们绝对可以询问“指导机器人在句子中完成家务劳动”的明智生活。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!