首页 >> 新闻动态 >>行业动态 >> 头部厂商重兵布局世界模型
详细内容

头部厂商重兵布局世界模型

2026年GTC大会期间,英伟达Cosmos世界模型再度重磅登场。该模型已连续2年亮相CES和GTC两大峰会。李飞飞创立的World Labs宣布完成最新一笔10亿美元的融资,专注于世界模型研发。杨立昆创立的AMI宣布完成10.3亿美元融资,创欧洲AI领域种子轮融资规模纪录。OpenAI  Sora、Google Genie等模型也被视为世界模型领域的有力竞争者。全球顶尖学者、头部科技厂商的重兵布局,叠加多模态模型能力的迅速迭代,世界模型已逐步汇聚起引领下一代人工智能发展的产业共识。

什么是世界模型?尚无统一定义,Sora、英伟达、李飞飞、杨立昆四大技术路线各有侧重,共同构筑世界模型的主流探索方向。以Sora为代表的视频生成派、以英伟达为代表的物理AI派、以李飞飞代表的空间智能派、以杨立昆为代表的因果推演派,对世界模型的定位各有不同:
1)视频生成派认为,世界模型是能够自由想象的像素级视频生成器;
2)物理AI派认为,世界模型是能够批量生成仿真环境的物理AI基础设施;
3)空间智能派认为,世界模型是能够理解物体三维空间关系的3D空间智能;
4)因果推演派认为,世界模型是能够在抽象逻辑中,进行物理规律因果推理与未来推演的因果推演智能。
四大流派分别从四个方向开启下一代AI的长征,期望会师于世界模型这个终极目标,从而补足语言模型在视觉生成能力、动作交互能力、空间理解能力和因果推演能力的短板,引领下一代人工智能发展。

世界模型各个流派的差异是什么?四大流派的研究视角和技术侧重不同,但核心本质一脉相通。
视频生成派强调对世界的像素级还原,物理AI派强调对世界真实场景的还原,空间智能派强调对于世界的3D还原,而因果推演派强调对于抽象的因果逻辑还原。四大方向仅是从不同维度刻画世界模型的能力边界,彼此并非完全对立排斥的技术路线。在产业发展过程中,各流派技术也在持续迭代融合、相互借鉴、优势互补。最终,世界模型可以形成统一的数学抽象表示,即给定世界上一刻的状态和动作,生成下一刻的状态。例如,给定视频的上一刻的画面,和视频画面中机器人(16.680, 0.49, 3.03%)的动作,预测视频的下一刻的画面。相比于语言模型基于历史的Token生成下一个Token的范式,世界模型的不同之处在于,Token是视频模态,并且引入了动作。世界模型本质上强调的是机器人如何改变世界。

世界模型有哪些落地场景?视频生成、互动游戏、设计、XR/AR和物理AI,其中物理AI是最重要的落地场景。
世界模型当前主要有五类应用:视频生成、互动游戏、互动设计、XR/AR和物理AI。从落地的节奏看,可以分为:
1)已初步落地的商业化产品:以视频生成为主,用户可以输入文字和图片,从而得到AI生成的视频。已在短视频、广告、影视、短剧、漫剧、电商、物理AI数据增强等场景商业化落地。
2)实验室Demo级别产品:以交互式视频生成为主,用户可以操作动作,改变视频的状态。未来有望在游戏、设计、XR/AR等场景率先落地。
3)实验室预研方向:世界模型通过模拟行为对实际造成的后果,进而能够指导物理AI行动,从而实现物理AI规模化落地。
(转自新浪财经)

东灵融合是人力资源解决方案的创新者。公司始终致力于核心人才的挖掘、发展和培养,为企业和人才进行双向高效链接与匹配。
扫一扫
lili.feng@dlrh5.com
重庆市渝中区来福士办公楼A座23层

东灵融合

www.dlrh5.com
ICP备案号:渝ICP备2023018009号-1
技术支持: 遥阳科技 | 管理登录
seo seo