Chuyển Hướng Nghiên Cứu AI: Từ Mô Hình Ngôn Ngữ Lớn Sang Mô Hình Thế Giới Cho Trí Tuệ Hiện Thân

Chỉnh sửa bởi: firstname lastname

Quỹ đạo nghiên cứu Trí tuệ Tổng quát Nhân tạo (AGI) trong năm 2025 đang chứng kiến một sự chuyển dịch rõ rệt, rời xa các Mô hình Ngôn ngữ Lớn (LLMs) để tập trung vào 'mô hình thế giới' (world models). Sự thay đổi chiến lược này nhấn mạnh nhu cầu cấp thiết về các hệ thống AI có khả năng mô phỏng và suy luận về thế giới vật lý, nhằm khắc phục hạn chế cố hữu của LLMs vốn thiếu sự hiểu biết sâu sắc về vật lý và quan hệ nhân quả.

Các nhà nghiên cứu nhận định rằng LLMs, dù mạnh mẽ trong việc xử lý ngữ nghĩa và phân rã tác vụ, lại gặp khó khăn trong việc tuân thủ các định luật vật lý khi hoạt động trong môi trường thực. Nhà khoa học nhận thức Gary Marcus tiếp tục bảo vệ quan điểm rằng LLMs có những giới hạn cơ bản về độ tin cậy và khả năng suy luận, ông kiên trì ủng hộ các phương pháp tiếp cận lai ghép thần kinh-ký hiệu (neuro-symbolic) nhằm lập trình rõ ràng các quy tắc của thế giới. Quan điểm này cho rằng việc chỉ mở rộng quy mô các mô hình mạng nơ-ron hiện tại sẽ không đủ để đạt được AGI, vì chúng chỉ trở thành những 'con vẹt' ghi nhớ dữ liệu thay vì phát triển kiến thức chuyên sâu. Sự ủng hộ dành cho các mô hình lai ghép này được củng cố khi các mô hình được tăng cường công cụ như O3 và Grok 4 của năm 2025 cho thấy những bước tiến vượt trội nhờ khả năng suy luận có cấu trúc.

Đại học Stanford, thông qua nhà đồng sáng lập Fei-Fei Li, đã giới thiệu Marble, một mô hình thế giới tập trung vào trí thông minh không gian, lập luận rằng AGI đòi hỏi phải nâng cao nhận thức lên thành hành động. World Labs, công ty của Li, đã huy động được 230 triệu đô la vốn để phát triển Marble, một mô hình thế giới 3D thương mại có thể tạo ra các môi trường có thể chỉnh sửa được từ các đầu vào đa phương thức như văn bản, hình ảnh hoặc video. Bà Li coi trí thông minh không gian là biên giới tiếp theo của AI, một yếu tố cần thiết cho các tác nhân AI hoạt động trong môi trường thực, khác biệt với việc chỉ dự đoán từ ngữ. Trong khi đó, Google DeepMind đang đẩy mạnh công việc mô phỏng của mình với các mô hình như Genie 3, một mô hình thế giới nền tảng có khả năng tạo ra các môi trường 3D tương tác theo thời gian thực ở độ phân giải 720p và 24 khung hình mỗi giây (fps). Genie 3 được xem là một cột mốc quan trọng trên con đường dẫn đến AGI, cung cấp không gian huấn luyện cho các tác nhân AI để chúng có thể học hỏi thông qua trải nghiệm mô phỏng với bộ nhớ thế giới nhất quán.

Sự dịch chuyển này còn được đánh dấu bằng việc Yann LeCun, một trong những 'cha đẻ' của AI và là nhà khoa học AI hàng đầu của Meta, đã rời công ty vào cuối năm 2025 để thành lập một công ty khởi nghiệp tập trung hoàn toàn vào việc xây dựng các mô hình thế giới. LeCun, người đã nhận Giải thưởng Turing, cho rằng LLMs là một 'ngõ cụt' tiềm năng cho AI hiện thân vì chúng không nắm bắt được cấu trúc vật lý và quan hệ nhân quả như một đứa trẻ bốn tuổi. Công ty khởi nghiệp của ông, Advanced Machine Intelligence (AMI), đang tìm cách huy động khoảng 586 triệu đô la và tập trung vào tính hiệu quả, tránh cuộc đua mở rộng quy mô tốn kém của LLMs. Sự tách biệt này phản ánh sự chia rẽ trong ngành công nghiệp AI giữa việc thương mại hóa nhanh chóng các sản phẩm dựa trên LLM và các nỗ lực dài hạn hướng tới trí tuệ cấp độ con người thông qua mô hình thế giới.

Sự đồng thuận đang gia tăng hướng tới trí tuệ hiện thân (embodied intelligence) làm nổi bật nhu cầu về các hệ thống AI có khả năng tương tác với thế giới thực, vượt ra ngoài việc dự đoán từ đơn thuần. Các nhà nghiên cứu đang tìm kiếm một kiến trúc kết hợp giữa LLMs/MLLMs (cho suy luận ngữ nghĩa) và WMs (cho tương tác vật lý tuân thủ luật) để tạo ra khả năng nhận thức hiện thân toàn diện, một bước đệm cần thiết để AI có thể giải quyết các tác vụ phức tạp trong thế giới vật chất.

72 Lượt xem

Nguồn

  • Marketplace

  • The Guardian

  • Nasdaq

  • Observer

  • Observer

Bạn có phát hiện lỗi hoặc sai sót không?Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.