星空体育app手机:刚刚国产AI双冠王!黑马世界模型打破全球纪录一镜到底封神
世界模型黑马横空出世!就在刚刚,生数科技的MotuBrain零宣发登顶双榜,直接打通「看懂世界+执行行动」,而且不同的是,他们把World Action Model适配多个头部机器人本体,完成多个长程任务,这是国产AI的硬核突围!从此,具身智能彻底迈入新纪元。
它出现得极其反常:没有Logo、没有发布会、没有融资稿,连X账号都是新注册的。
更离谱的是,这两个榜单彼此根本不挨着——一个考「你能不可以真正看懂世界」,一个考「你能不能在世界里稳定干活」。
过去几年,行业把它们叫作「两个极点」:做世界模型的看得懂、动不了;做VLA的能动手、想不远。
具身圈猜测刷屏:这是阿里「快乐生蚝」翻版?字节憋的大招?或者华为的暗手?还是李飞飞World Labs的中国分舵?
而且他们没止步与此,现在已经把world action model适配多个头部机器人本体,应对多种任务、建模多个长程任务。
因为它在架构上把五种本来彼此割裂的具身智能范式,拧成了一个「看-想-动」的闭环:
VLA(视觉-语言-动作)、世界模型、视频生成、逆动力学、视频-动作联合预测。
这种统一世界-动作建模,通过一个模型统一建模视频「video」与动作「action」,使之前彼此割裂的5种方法都成为同一建模框架下的不同推理模式。
与以往方法不同,Motus联合建模「视频」和「动作」,学到的不再是机械反应,而是任务目标、环境变化、以及动作会带来什么后果这三者之间的深层世界知识。这让它更能适应新环境和新任务。
Motus引入「潜动作」机制,能从无标签的互联网视频、人类操作视频中提取通用的「运动规律」。
潜动作变分自编码器 (Latent Action VAE)。这是一种基于光流的表征方式,通过变分自编码器架构将视觉动力学(visual dynamics)与控制信号相衔接
具身数据金字塔。展示了从互联网数据(第一层)到目标机器人演示数据(第六层)的六级数据层级结构,其任务相关性和数据质量随层级逐级提升。
基于「专家混合」,Motus引入了混合Transformer (Mixture-of-Transformer, MoT) 架构,巧妙融合了视频生成、语义理解、动作生成三个已有的高性能基座模型。
Motus表现出了正向的规模效应,即学习的任务越多、数据越丰富,模型掌握的可迁移世界知识就越多,在新任务上的平均成功率反而越高。
在50项通用任务测试中,Motus的平均成功率高达88%,在当时的RoboTwin2.0上直接霸榜。
一个面向真实世界的通用世界行动模型(World Action Model,WAM),具备多本体、多任务、长程执行能力。
长程执行:自回归+扩散与语言-动作-视频三流MoT,直接用超过10个原子动作的长序列达成目标,摆脱对上层任务拆解的完全依赖。
简单说:Motus证明了「路走得通」,MotuBrain证明了「我已经在这条路上跑出了世界第一」。
在Motus的基础上,MotuBrain作为商用模型版本,进一步面向真实机器人场景完成系统升级,将World Action Models从技术验证推向更通用、更可落地的具身智能大脑。
为什么这件事让具身圈如此震动?因为在过去一年里,这条赛道挤满了顶级玩家。
下面的demo,详细展示了全球第一的世界模型已经进化到了多么强大的地步,全部任务一镜到底。
装上MotuBrain的机器人给我们演示了一把这个操作:把花插入花瓶中,然后开始用喷壶喷洒清水。
传统机器人方案常常要一个昂贵的「上层大脑(VLM)」负责拆解指令,再由底层驱动去执行,这种「拼凑感」往往导致动作断档。
而MotuBrain实现了一脑贯通:它无需额外视觉语言模型的辅助,仅凭自身即可直接建模复杂的长程任务,让「从插花到浇水」的逻辑转换如同人类本能般丝滑。
它先将沙发上的衣物放入洗衣篮,然后将靠枕摆回原位,过程中还要弯腰捡东西,这都体现了全身动作的协调性。
对人类而言,勺子没捞到东西就再试一次是常识;但对机器人,这涉及极其复杂的闭环感知。
比如,它需要理解当前勺子的空的,通过物理推演意识到「目标未达成」,然后还要预测个人需要重新执行捞取动作。
这种「一脑预见」能力,本质上是机器人对真实物理世界的深度建模——它不仅在看,更在预测物理世界的走向,并以此驱动行动。
下面这个调酒机器人,使用了基酒和牛奶调制了一杯鸡尾酒,然后娴熟地放在了托盘上,这是一个极其复杂的长程任务。
另外,机器人还能整理洗漱台。只见它将牙刷准确地放入杯中,还把肥皂放回原位。
液体流变、精细抓取,包括叠衣服过程中的织物形变……每一个动作背后的物理反馈逻辑迥然不同。
以往,业内需要为每个场景单独训练模型,但MotuBrain却展示出了卓越的「一脑多能」能力,只要一个模型,就可以应对多种任务。
更令人惊喜的是,MotuBrain还能做到一脑多型,一个模型就能适配不同的机器人。
同一个模型,可以瞬间适配各种形态、各种自由度的机器人硬件,让AGI真正走入现实物理世界。
MotuBrain在这里拿下63.77的EWM Score,排名第一,超过了国内外的同类模型。
Motion Quality第一——动作真的「在动」,绝非看起来像动的视觉特效
Flow Score第一——前一秒和后一秒能丝滑衔接,而非逐帧拼接的PPT
Motion Smoothness第一——动作符合真实物理规律,不会突然抖一下、突然加速
对一个未来要服务机器人的世界模型来说,这才是真本事——画面再美,机器人执行时一抖手汤就洒了,等于零。
在Clean(干净)和Randomized(随机扰动)两个场景下,MotuBrain分别拿到95.8和96.1——是榜单上唯一一个在随机环境下平均分超过95的模型。
跟谁比?JEPA-VLA、Pi-0.5——这些都是行业内大家熟悉的硬茬。
结果,MotuBrain在RoboTwin上的表现,用一个词形容就是「碾压」。
把两份成绩放在一起看,意思就很清楚了:MotuBrain既看得懂世界,又能在世界里稳定干活。
「边推演边行动」:同步生成未来状态与当前动作(如Motus和英伟达DreamZero)。
VLA学动作模式,世界模型学预测能力,彼此拼接、对齐,终究是五个专科医生会诊。
它基于自研UniDiffuser架构,将视频和动作两个连续模态从底层统一建模。
一次训练,同时学会五种能力:VLA、世界模型、视频生成、逆动力学、视频-动作联合预测。
正因为大一统,MotuBrain能吸收多模态异构数据——课本、视频、生活观察、跨学科交流。而VLA只能从特定机器人的纯任务轨迹里学习。长期看,差距是数量级的。
MotuBrain还能预判:「如果我推它一下,它会怎么倒、汤会怎么洒。」
比如抓取、移动、放置、组合、连续操作,看起来是不同任务。但背后都有共同规律:物体会受力,动作有先后,而且环境会变化,错误需要调整。
实验证明:随着任务数量增加,Pi-0.5成功率持续下降(过拟合任务轨迹),而MotuBrain成功率持续上升——这说明它学到了跨任务的通用世界知识。而且上升的曲线越陡峭,说明模型泛化性越高,这是 MotuBrain 相比Motus的进一步跨越。
现实世界里,机器人有很多形态,比如双臂机器人、移动机器人、人形机器人、机械臂。
然而,传统方法常常是「一个机器人,一个模型」。换了本体,就要重新适配;换了硬件,又要重新训练。
它通过统一action表征,把不同机器人本体的动作数据放进同一个框架里学习。
生态里的机器人种类越多,场景越丰富,数据越多,模型能力还能够继续提升。反过来,模型能力提升后,又能帮助更多机器人提升表现。这会形成一个正循环。
机器人要做的不单单是「拿起杯子」,它可能要先找到杯子—再避开障碍—再抓起杯子—再移动到指定位置—最后放稳。
传统方法往往需要上层规划器先拆任务,再让不同模型分别执行,但任务越长,中间出错的概率越高。
它不完全依赖上层规划、快慢双系统或多个模型拼接,可完成超过10个原子动作级别的复杂长程任务,远超于在2到3个原子动作的Demo展示。
因为真实机器人要服务真实世界,就必须能持续推进任务,不能做一步,停一下。
人类拿杯子时,会自然预判:手碰到杯子后,杯子会不会滑?桌面有没有水?杯子会不会被推倒?旁边有没有障碍物?
它不只是执行指令,还要理解世界。它会预测环境变化,再根据预测结果调整动作路径。
理解MotuBrain,光看技术参数还不够。它背后是生数科技整个通用世界模型战略的一块重要拼图。
去年三月,生数科技创始人朱军教授,抛出了一个大判断:「通用世界模型是连接数字世界与物理世界的桥梁。」
它对应的是生数科技正在搭建的一个完整体系——以通用世界模型(Foundation World Model)为核心底层,基于全球首创的U-ViT架构(早于Sora的DiT架构),不间断地积累视觉、听觉、触觉等多模态信息,形成对世界的统一认知。
基于世界生成模型(WGM),生数科技打造了视频大模型产品Vidu,服务全球200多个国家地区的数千万用户,合作方包括好莱坞工作室Aura Productions(用Vidu制作50集动画短剧)。
基于世界行动模型(WAM),生数科技构建了Motus和MotuBrain,目标是给真实世界的机器人安上一个统一的大脑,解决传统具身智能链路割裂、数据稀缺、泛化能力弱的痛点,实现真实世界下的零样本泛化与跨本体适配。
两条线一加,生数科技形成了一个完整的闭环——预测世界、生成世界、行动于世界。
MotuBrain双榜第一,只是这个战略图谱里的一次「亮剑」,证明物理空间这条线已经走通了。
最近,生数科技在产业侧也动作不断。先后与无界动力、深朴智能、星尘智能达成战略合作,把MotuBrain从「实验室SOTA」推进到「机器人本体适配+真实场景落地」。
总之,MotuBrain回答的是「通用机器人大脑能不能成立」,而生态合作回答的是「这个大脑怎么真正进入工厂、家庭、商业场景」。
过去几年,机器人产业一直在比拼「身体」——电机更精准、传感器更丰富、整机成本更低。
资本已经率先用真金白银投出了答案:近一年具身智能的大额融资,几乎都砸向了「做大脑」的公司。
这是一场关于下一代「机器人操作系统」入口的卡位战,谁先建立起world+action的统一架构,谁就拿到了未来十年的船票。
MotuBrain的双榜第一,更像是给整个行业递交了一份证据:通用机器人大脑这件事,中国团队已经走在了第一梯队。
更让人感慨的是这股力量的来源——生数科技,在没有动用什么「营销大招」的情况下,用代码和数据正面把硅谷标杆Pi-0.5撂倒了40个百分点。
当「预测世界」和「驱动行动」被装进同一颗大脑,机器人才真正配得上「具身智能」四个字。
上一篇:福州市生态环境局 下一篇:褪去了“艳星”的标签洗尽了港圈的铅华张暖雅在山东乡村的烟火气里把多年前丢掉的自己一件件找了回来



