人工通用智慧研究轉向:世界模型取代大型語言模型成為焦點

编辑者: firstname lastname

西元2025年,人工通用智慧(AGI)的研究路徑出現關鍵轉折,焦點正從大型語言模型(LLMs)轉向「世界模型」(World Models)。此轉變的核心在於,世界模型旨在賦予人工智慧模擬和推論物理世界的能力,以彌補LLMs在理解物理定律和因果關係上的根本性不足。傳統LLMs本質上是基於文本訓練的模式匹配系統,儘管在語言層面表現優異,但缺乏對現實結構的真正掌握,這限制了它們在需要物理理解的任務上的表現。

認知科學家蓋瑞・馬庫斯(Gary Marcus)持續主張,LLMs在可靠性與推理能力上存在結構性限制,他堅定倡導應採用神經符號(neuro-symbolic)方法,將世界規則明確編碼至系統中。馬庫斯認為,單純依賴數據和運算能力無法解決所有問題,當前是將世界模型、因果關係和神經符號AI納入研究的關鍵時刻。他進一步指出,現有神經網路架構與處理代數等抽象關係的能力並不相容,這佐證了需要混合模型以實現更深層次的理解。對結構化推理的需求,也間接體現在OpenAI的O3和xAI的Grok 4等模型透過整合工具增強推理能力,驗證了神經符號AI的價值所在。

AI領域的先驅,史丹佛大學的李飛飛(Fei-Fei Li)教授,透過其共同創立的World Labs推出了專注於空間智能建構的世界模型「Marble」。李飛飛認為,AGI的實現需要將感知能力提升至行動層面,並將空間智能視為繼語言之後的下一個前沿領域。Marble是一個能夠從文本提示、圖像或影片生成可編輯、持久性3D環境的多模態系統,這標誌著AI從單純的文字預測,邁向理解物理、體積和因果關係的商業化嘗試,並獲得高達2.3億美元的資金支持。

科技巨頭的投入亦凸顯此趨勢的廣泛認可。Google DeepMind持續推進其模擬工作,推出了Genie 3模型,該模型能根據文本提示即時生成可互動的3D世界,並以每秒24幀(24fps)和720p的解析度運行,展現出強大的世界記憶和物理一致性,為訓練具身AI代理提供了虛擬訓練場。此外,圖靈獎得主、Meta前首席AI科學家Yann LeCun已宣布離開Meta,並著手創立專注於構建世界模型的新創公司「Advanced Machine Intelligence Labs」(AMI Labs)。AMI Labs預計於2026年1月啟動,總部設於巴黎,目標是開發能從視覺和空間數據中學習的下一代系統,展現出對抗矽谷LLM中心主義的戰略意圖。

業界分析指出,未來三到五年內,從純LLM架構轉向混合的多模態模型(MLLM)與世界模型的協調架構,將在營運效率和自動化深度上創造顯著的競爭優勢。屆時,LLMs將退居次要層級,負責語義推理和自然語言介面,而世界模型將成為決策和執行的核心層面。總體而言,從LLMs到世界模型的轉移,代表著AI研究正從語言的模式匹配,邁向對物理現實的內在理解。

72 浏览量

來源

  • Marketplace

  • The Guardian

  • Nasdaq

  • Observer

  • Observer

发现错误或不准确的地方吗?我们会尽快处理您的评论。