人工智能研究范式转向：从大型语言模型到世界模型以实现具身智能

12:25, 19 十二月

编辑者： firstname lastname

iframe { display: none; }

2025年通用人工智能（AGI）研究领域正经历一场显著的范式转变，焦点正从过度依赖大型语言模型（LLMs）转向构建“世界模型”（World Models）。此次演进旨在克服LLMs在理解物理世界、因果关系及现实世界动态方面的内在局限，从而推动人工智能向更具实际操作能力的具身智能（Embodied Intelligence）发展。世界模型通过在AI内部建立一个可交互的“内在宇宙”，使其能够在不进行真实交互的情况下模拟环境变化并预测未来结果，这被视为实现真正通用智能的关键基础设施。

认知科学家Gary Marcus长期以来对LLMs的局限性持批判态度，他坚持认为，纯粹基于文本训练的模型本质上是“模仿者”，缺乏对概念的深层世界模型理解，容易在推理和可靠性上出现系统性错误。 Marcus提倡采用神经符号方法，即明确地将世界规则编程到系统中，以弥补纯粹的神经网络架构在形式推理上的不足。这种观点反映了业界对当前AI范式可能陷入“规模魔咒”的担忧，即单纯增加参数和数据规模已无法带来质的飞跃，更深层次的物理世界理解才是突破口。

学术界和产业界的领军人物正积极布局世界模型赛道。斯坦福大学学者李飞飞（Fei-Fei Li）联合创办的公司World Labs推出了其首款商用产品Marble，该模型专注于空间智能，旨在提升AI的感知到行动的转化能力。 Marble能够利用文本、图像或视频等多种输入，生成持久化、可编辑的3D交互环境，这使其在商业化方面占据先机，区别于许多仍处于研究预览阶段的模型，例如谷歌的Genie模型。

在产业界，图灵奖得主、前Meta首席AI科学家Yann LeCun已宣布计划于2025年底离开Meta，筹建一家专注于世界模型构建的初创公司，他认为LLMs可能是通往具身AI的潜在死胡同。 LeCun的理念是构建能够通过视频和空间数据理解世界的系统，而非仅依赖语言文本。据报道，他正计划为其新公司（可能名为AMI Labs）筹集约5亿欧元的早期资金，预期估值将达30亿欧元。此外，Google DeepMind持续推进其模拟工作，例如Genie 3模型，进一步佐证了业界对构建物理世界模拟能力的共识。

这种共识性的转向，标志着人工智能研究正从侧重于语言的“二维平面”理解，向需要感知、行动和预测的“三维物理世界”交互能力迁移。具身智能的兴起，要求AI系统不仅能描述世界，更要能像人类一样在空间中进行推理、导航和执行复杂任务，这需要世界模型提供对物理规则和因果关系的内在表征，为下一代通用智能体奠定基础。行业正从“读写时代”迈向“构建世界时代”，多模态数据和视频级数据管线正成为支持这种深层次物理世界建模和预测能力的新标准配置。

72 查看

来源

Marketplace
The Guardian
Nasdaq
Observer
Observer

通知中心

人工智能研究范式转向：从大型语言模型到世界模型以实现具身智能

来源

阅读更多关于该主题的新闻：