网问答>>像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
问题
已解决

像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框

时间:2024-08-16 11:49:19
像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
最佳回答
机器之心报道,编辑:张倩、陈萍。具身智能研究领域的重大突破正在发生。多家顶级研究机构在今年的 ICML 大会上展示了创新成果,标志机器人的智能体验达到新高度。谷歌的 PaLM-E 和斯坦福大学李飞飞教授、英伟达高级研究科学家林西·范麟熙携手研发的 VIMA 机器人智能体,展示了具身智能领域的前沿技术。PaLM-E 是一个参数量高达 5620 亿的具身多模态语言模型,融合了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),成为当前已知最大的视觉 - 语言模型。通过这一模型控制机器人,谷歌实现了具身智能的新境界,使机器人能够理解人类指令并自动分解执行。VIMA 智能体则展示了与 GPT-4 类似的多模态接受能力,能处理文本、图像、视频或它们的混合输入,输出相应的动作。这使得 VIMA 能够执行各种任务,如按照图片排列积木、根据视频完成动作序列、学习新概念,并对动作施加视觉约束。研发 VIMA 的目的在于构建通用型机器人,使其能通过直观且表现力强的任务规范接口理解复杂的自然语言指令。例如,机器人能通过简单指令执行如拿水杯等家务任务,或通过语言与图像结合的指令学习新技能。这要求机器人具备多任务学习和零样本泛化能力,VIMA 通过多模态 prompt 接口世改凳实现这一目标。VIMA 通过多模态 prompt 接口整合了不同机器人操作任务,构建了一个统一的序列输入输出接口,使得机器人学习更加高效且可扩展。为此,研究团队开发了 VIMA-BENCH 基准测试,评估了 VIMA 的泛化能力歼穗。VIMA 采用编码器 - 解码器 Transformer 架构,通过预训练的 T5 编码器进行编码,并针对新模态 token 使用 MLP 层。机器人控制器通过交叉注意力层对 prompt 序列进行条件化,实现动作预测。VIMA 的实验结果显示,在不同模型大小和数据集大小下,VIMA 均展现出优越的性能和样本效率。此外,对视觉 tokenizer 的消融研究表明,对象 token 相对于其他方法具有明显优势。交叉注意力在低参数状态和泛化任务中显示出特别的有用性。这项研究搜旅为具身智能领域带来了重大突破,通过 VIMA 智能体展示了通用型机器人在多模态任务上的潜力。研究团队还开源了仿真环境、训练数据集、算法代码和预训练模型的 checkpoint,为未来研究提供了宝贵资源。
时间:2024-08-16 11:49:22
本类最有帮助
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: