头部厂商重兵布局世界模型

2026年GTC大会期间，英伟达Cosmos世界模型再度重磅登场。该模型已连续2年亮相CES和GTC两大峰会。李飞飞创立的World Labs宣布完成最新一笔10亿美元的融资，专注于世界模型研发。杨立昆创立的AMI宣布完成10.3亿美元融资，创欧洲AI领域种子轮融资规模纪录。OpenAI Sora、Google Genie等模型也被视为世界模型领域的有力竞争者。全球顶尖学者、头部科技厂商的重兵布局，叠加多模态模型能力的迅速迭代，世界模型已逐步汇聚起引领下一代人工智能发展的产业共识。

什么是世界模型？尚无统一定义，Sora、英伟达、李飞飞、杨立昆四大技术路线各有侧重，共同构筑世界模型的主流探索方向。以Sora为代表的视频生成派、以英伟达为代表的物理AI派、以李飞飞代表的空间智能派、以杨立昆为代表的因果推演派，对世界模型的定位各有不同：
1）视频生成派认为，世界模型是能够自由想象的像素级视频生成器；
2）物理AI派认为，世界模型是能够批量生成仿真环境的物理AI基础设施；
3）空间智能派认为，世界模型是能够理解物体三维空间关系的3D空间智能；
4）因果推演派认为，世界模型是能够在抽象逻辑中，进行物理规律因果推理与未来推演的因果推演智能。
四大流派分别从四个方向开启下一代AI的长征，期望会师于世界模型这个终极目标，从而补足语言模型在视觉生成能力、动作交互能力、空间理解能力和因果推演能力的短板，引领下一代人工智能发展。

世界模型各个流派的差异是什么？四大流派的研究视角和技术侧重不同，但核心本质一脉相通。
视频生成派强调对世界的像素级还原，物理AI派强调对世界真实场景的还原，空间智能派强调对于世界的3D还原，而因果推演派强调对于抽象的因果逻辑还原。四大方向仅是从不同维度刻画世界模型的能力边界，彼此并非完全对立排斥的技术路线。在产业发展过程中，各流派技术也在持续迭代融合、相互借鉴、优势互补。最终，世界模型可以形成统一的数学抽象表示，即给定世界上一刻的状态和动作，生成下一刻的状态。例如，给定视频的上一刻的画面，和视频画面中机器人(16.680, 0.49, 3.03%)的动作，预测视频的下一刻的画面。相比于语言模型基于历史的Token生成下一个Token的范式，世界模型的不同之处在于，Token是视频模态，并且引入了动作。世界模型本质上强调的是机器人如何改变世界。

世界模型有哪些落地场景？视频生成、互动游戏、设计、XR/AR和物理AI，其中物理AI是最重要的落地场景。
世界模型当前主要有五类应用：视频生成、互动游戏、互动设计、XR/AR和物理AI。从落地的节奏看，可以分为：
1）已初步落地的商业化产品：以视频生成为主，用户可以输入文字和图片，从而得到AI生成的视频。已在短视频、广告、影视、短剧、漫剧、电商、物理AI数据增强等场景商业化落地。
2）实验室Demo级别产品：以交互式视频生成为主，用户可以操作动作，改变视频的状态。未来有望在游戏、设计、XR/AR等场景率先落地。
3）实验室预研方向：世界模型通过模拟行为对实际造成的后果，进而能够指导物理AI行动，从而实现物理AI规模化落地。
（转自新浪财经）

上一篇“超龄劳动者基本权益保障暂行规定”自2026.7.1实行下一篇联合国教科文组织国际STEM教育研究所启动运行

头部厂商重兵布局世界模型

东灵融合

电话直呼