你的位置:开云(中国登录入口)Kaiyun·体育官方网站 > 新闻资讯 >

开云体育(中国)官方网站除了保遗留统的言语和视觉的交融才气(言语智能)外-开云(中国登录入口)Kaiyun·体育官方网站

开云体育(中国)官方网站除了保遗留统的言语和视觉的交融才气(言语智能)外-开云(中国登录入口)Kaiyun·体育官方网站

机器东谈主前瞻 2 月 21 日报谈,近日,微软询查院发布了一个多模态 AI 模子—— Magma。Magma 是首个大略在其所处环境中交融多模态输入并将其与履行情况联系系的基础模子,惟有提供一个刻画性见识,Magma 就大略制定缱绻、推论行为以已矣该见识。

Magma 以视觉言语(VL)模子为基础,除了保遗留统的言语和视觉的交融才气(言语智能)外,还解锁了空间智能的生手段,大略从多模态输入(用户界面截图、机器东谈主图像、造就视频)中交融对象的物理位置、作为的时序逻辑,并在不同环境(数字界面与物理宇宙)中完成连贯的任务。

值得一提的是,论文的作家中,13 位有 12 位应该是华东谈主。中好意思 AI、机器东谈主竞赛的背后,竟然还是在好意思华东谈主和在华中国东谈主之间的较量。

Magma 袭取了深度学习架构和大限制预进修相集结的步履,该模子使用 ConvNeXt-XXL 视觉主干处理图像和视频,同期使用 LLaMA-3-8B 言语模子处理文本输入。

Magma 是通过一个包含 3900 万个样本的千般化数据集进行进修的,其中包括图像、视频和机器东谈主作为轨迹。

这个模子还立异袭取了两项时期 : "可记号集"(Set-of-Mark,SoM)和 "轨迹记号" ( Trace-of-Mark,ToM ) 。前者使模子大略记号 UI 环境中的可操作视觉对象,后者则使其大略跟踪物体随时代的出动,提高改日行为的狡计才气。

询查团队对包括 ChatGPT 在内的多个模子进行了零样本评估,后果透露,经由预进修的 Magma 模子在未进行任何特定界限微调情况下,是唯独一款大略推论全范围任务的模子。

将 Magma 和 OpenVLA 这两个模子诓骗到 WidowX 机械臂上,当让机械臂拼装桌面上的热狗模子、把蘑菇模子放到盆中、把桌子上的抹布从左边出动至右边时,Magma 可以让机械臂比拟精准地完成任务,而 OpenVLA 则在物体握取、出动上证明略失容于前者。

Magma 诓骗到 WidowX 机械臂并经由少样本的微调后,在散布内和散布外泛化任务中,齐有着可靠的性能证明。

在 LIBERO 平台上进行的少样本微调,Magma 在所有任务组中齐得回了更高的平均收效用。

在 Google Robots 和 Bridge 上进行的零样本评估中,Magma 模子也展现出了较强的零样本跨域鲁棒性,并在握取多种不同物品等跨实体操作模拟任务中得回了可以收成。

处理一些比拟有挑战性的空间推理勤快时,天然 Magma 的预进修数据比 GPT-4o 少得多,然而也可以准确地进行复兴。

针对多模态交融方面,Magma 的证明甚而特出了 Video-Llama2 和 ShareGPT4Video。比如,当给 Magma 提供一段视频时,看到有东谈主提起茶包,它能秒猜下一步要倒滚水沏茶。

Magma 收效整合了视觉、言语和行为开云体育(中国)官方网站,在机器东谈主任务操作上证明出了较高的泛化才气。改日,跟着模子询查的不休潜入及模子限制的膨胀,Magma 也有望为科罚更复杂的机器东谈主操作问题提供可以的科罚决策,让机器东谈主距离真实的落地诓骗更进一步。



相关资讯