VQ-BeT: Generasi Perilaku dengan Tindakan Laten

Keterampilan Otonom

[Ambil Roti → Masukkan ke Tas → Ambil Tas → Letakkan di Meja] (x8)
[Buka Laci → Ambil dan Letakkan Kotak → Tutup Laci] (x8)
[Buka Microwave → Ambil Roti → Letakkan di Meja] (x8)
[Kaleng ke Kulkas → Tutup Kulkas → Buka Pemanggang] (x5)
[Kaleng ke Pemanggang → Tutup Pemanggang → Tutup Kulkas] (x5)

Abstrak

Pemodelan generatif dari perilaku kompleks dari kumpulan data berlabel telah menjadi masalah yang sudah lama ada dalam pengambilan keputusan. Tidak seperti generasi bahasa atau gambar, pengambilan keputusan memerlukan pemodelan tindakan – vektor bernilai kontinu yang distribusinya multimodal, yang mungkin diambil dari sumber yang tidak dikurasi, di mana kesalahan generasi dapat bertambah dalam prediksi sekuensial. Kelas model terbaru yang disebut Behavior Transformers (BeT) mengatasi hal ini dengan mendiskritisasi tindakan menggunakan pengelompokan k-means untuk menangkap mode yang berbeda. Namun, k-means kesulitan untuk berskala pada ruang tindakan berdimensi tinggi atau urutan panjang dan tidak memiliki informasi gradien, sehingga BeT menderita dalam memodelkan tindakan jarak jauh. Dalam penelitian ini, kami menyajikan Vector-Quantized Behavior Transformer (VQ-BeT), model serbaguna untuk generasi perilaku yang menangani prediksi tindakan multimodal, generasi bersyarat, dan observasi parsial. VQ-BeT melengkapi BeT dengan mentokenisasi tindakan kontinu menggunakan modul kuantisasi vektor hierarkis. Di tujuh lingkungan termasuk manipulasi simulasi, mengemudi otonom, dan robotika, VQ-BeT meningkatkan model mutakhir seperti BeT dan Diffusion Policies. Yang penting, kami menunjukkan kemampuan VQ-BeT yang lebih baik dalam menangkap mode perilaku sambil mempercepat kecepatan inferensi 5× dibandingkan Diffusion Policies.

Metode

Gambaran umum VQ-BeT, dibagi menjadi fase pelatihan encoder-decoder VQ residual dan fase pelatihan VQ-BeT. Arsitektur yang sama bekerja untuk kasus bersyarat dan tidak bersyarat dengan input tujuan opsional. Di kanan bawah, kami menunjukkan tampilan detail dari metode prediksi kode hierarkis.

Hasil Eksperimen

Kami menunjukkan dua plot yang membandingkan VQ-BeT dan baseline terkait pada generasi perilaku tanpa kondisi dan bersyarat tujuan. Sumbu perbandingan adalah (sumbu x) keberhasilan relatif yang diwakili oleh peringkat rata-rata pada serangkaian tujuh tugas simulasi, dan (sumbu y) waktu inferensi.

Evaluasi tugas tanpa kondisi di lingkungan simulasi dari VQ-BeT dan baseline terkait.

Evaluasi tugas bersyarat di lingkungan simulasi dari VQ-BeT dan baseline terkait.

▲ Kembali ke atas

Platform Lainnya

manjurbet slot login

bet channel on directv

slot minimal deposit 10k

grande vegas casino

Berita Piala Dunia

arjuna96 slot

a league betting

casino philippines

phil ivey vegetarian bet

Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]

▲ Kembali ke atas