Model AI paling ambisius di UEA: Mengajari robot cara berpikir

Kebanyakan video AIS menunjukkan seperti apa dunia ini. PAN, yang dikembangkan di Universitas Kecerdasan Buatan Mohamed bin Zayed (MBZUAI), mencoba memahami cara kerja dunia.

Ketika MBZUAI meluncurkan PAN bulan lalu, liputannya terfokus pada kemampuan pembuatan videonya. Namun hal tersebut tidak sesuai dengan kisah sebenarnya: PAN tidak dibuat untuk membuat film – namun dibuat untuk mengajarkan robot cara berpikir.

“Tidak seperti generator video pada umumnya yang mengubah teks menjadi klip yang meyakinkan secara visual, PAN dibuat untuk memahami dan mensimulasikan dunia itu sendiri,” Jon Carvill, Wakil Presiden Pemasaran dan Komunikasi di MBZUAI, mengatakan kepada Khaleej Times secara eksklusif. “Model video meniru tampilan; PAN menangkap dinamika yang membuat tampilan tersebut menjadi nyata.”

Meskipun Sora dari OpenAI dan Veo dari Google menghasilkan adegan sinematik, PAN dirancang untuk berpikir — sesuatu yang sangat dibutuhkan oleh robot dan sistem otonom.

Perbedaan ini penting karena adanya masalah yang mengganggu perkembangan robotika: melatih robot di dunia fisik itu mahal, lambat, dan berbahaya. Perusahaan yang mengembangkan robot humanoid seperti Optimus dari Tesla dan Helix dari Figure AI menghadapi tantangan yang sama: sebuah prototipe dapat menelan biaya ratusan ribu dolar, dan mengajarkannya bahkan tugas-tugas dasar melalui uji coba di dunia nyata berisiko menghancurkan investasi tersebut dengan setiap kesalahan.

Perusahaan robotika saat ini membutuhkan ratusan operator manusia yang melakukan ribuan demonstrasi berulang hanya untuk mengajarkan beberapa keterampilan. Biayanya sangat besar, dan jangka waktunya memakan waktu bertahun-tahun.

PAN mengubah persamaan tersebut dengan menciptakan apa yang oleh para peneliti disebut sebagai “model dunia”—sebuah sistem AI yang tidak hanya menghasilkan visual tetapi juga memahami sebab dan akibat, fisika, dan bagaimana tindakan menimbulkan konsekuensi seiring berjalannya waktu.

Dalam lingkungan simulasi PAN, tangan robot dapat mencoba ratusan cara untuk memegang cangkir sebelum menyentuhnya di kehidupan nyata.

Memperbaiki perilaku

“Di dalam PAN, agen robotik dapat melatih ribuan interaksi—mulai dari kendaraan otonom yang menavigasi lalu lintas hingga robot rumah tangga yang melipat cucian atau memuat mesin pencuci piring—sambil menyempurnakan perilakunya sebelum menyentuh dunia nyata,” jelas Carvill.

Arsitektur teknis di balik kemampuan ini membedakan PAN dari pesaing. Sementara sistem tersebut menghasilkan video lengkap dalam sekali jalan, PAN menyimpan memori internal tentang apa yang ada dalam sebuah adegan dan bagaimana objek bergerak, memperbarui pemahamannya langkah demi langkah saat sistem tersebut menghasilkan setiap frame baru.

“Kami membangun arsitektur PAN sebagai hibrida: difusi menangani ketepatan visual, sementara LLM mempertahankan semantik dunia dalam jangka waktu yang lebih panjang,” kata Carvill.

Implikasinya sangat signifikan. Simulasi fisika tingkat lanjut dapat melatih robot 430.000 kali lebih cepat daripada pembelajaran di dunia nyata, sehingga mempersingkat latihan fisik yang memerlukan waktu puluhan tahun menjadi beberapa jam waktu komputasi. Hal ini secara signifikan menurunkan biaya dan membuka akses terhadap kemampuan robotika tingkat lanjut.

Sistem ini mewakili pergeseran ke arah apa yang oleh para peneliti disebut sebagai “Embodied AI”—kecerdasan buatan yang harus memahami konsekuensi fisik, bukan hanya pola dalam data. Model bahasa besar saat ini unggul dalam hal teks tetapi kurang memahami bagaimana dunia fisik berperilaku.

Carvill menggarisbawahi: “Agen cerdas harus bergerak melampaui penalaran yang hanya berupa teks. Dengan memodelkan tidak hanya bahasa namun juga bagaimana dunia berperilaku dan merespons, PAN membentuk tulang punggung untuk sistem yang benar-benar terwujud.”

Model pengembangan terdistribusi MBZUAI—yang mencakup tim di Abu Dhabi dan Silicon Valley—mempercepat penciptaan PAN melalui peran yang jelas dan jalur penelitian yang memanfaatkan kumpulan talenta global di seluruh zona waktu.

Standar untuk agen cerdas

PAN cocok dengan strategi Institute of Foundation Models MBZUAI yang lebih luas, yang baru-baru ini memproduksi K2 Think, sebuah sistem penalaran AI. Pekerjaan ini memajukan misi universitas untuk membangun kemampuan AI yang bermanfaat bagi komunitas riset global.

Menatap tahun 2030, Carvill menguraikan visi yang ambisius: “Sukses berarti model dunia seperti PAN menjadi substrat standar bagi agen cerdas—mendukung sistem otonom yang aman, lingkungan virtual yang realistis, dan AI yang memahami konsekuensi, bukan hanya korelasi.”

Untuk Abu Dhabi, PAN menempatkan MBZUAI di persimpangan dua teknologi yang bertemu: AI canggih dan robotika fisik. Posisi unik kota ini—menggabungkan dukungan pemerintah, talenta internasional, dan kemitraan industri regional—menciptakan apa yang digambarkan Carvill sebagai “perspektif yang tidak ditemukan di tempat lain” dalam pengembangan AI global.