Berjudi di Kasino Curang: Masalah Bandit Multi-Lengan Adversarial

Dalam masalah bandit multi-lengan, seorang penjudi harus memutuskan lengan mana dari K mesin slot yang tidak identik untuk dimainkan dalam serangkaian percobaan guna memaksimalkan imbalannya. Masalah klasik ini telah mendapat banyak perhatian karena model sederhana yang diberikannya tentang trade-off antara eksplorasi (mencoba setiap lengan untuk menemukan yang terbaik) dan eksploitasi (memainkan lengan yang diyakini memberikan imbalan terbaik). Solusi masa lalu untuk masalah bandit hampir selalu bergantung pada asumsi tentang statistik mesin slot. Dalam karya ini, kami tidak membuat asumsi statistik apa pun tentang sifat proses yang menghasilkan imbalan mesin slot. Kami memberikan solusi untuk masalah bandit di mana seorang lawan, bukan proses stokastik yang berperilaku baik, memiliki kendali penuh atas imbalan. Dalam serangkaian T permainan, kami membuktikan bahwa imbalan per putaran yang diharapkan dari algoritme kami mendekati imbalan lengan terbaik dengan laju O(T^-1/3), dan kami memberikan laju konvergensi yang lebih baik ketika lengan terbaik memiliki imbalan yang cukup rendah. Kami juga mempertimbangkan pengaturan di mana pemain memiliki tim "ahli" yang menasihatinya tentang lengan mana yang harus dimainkan; di sini, kami memberikan strategi yang menjamin imbalan yang diharapkan mendekati imbalan ahli terbaik. Akhirnya, kami menerapkan hasil kami pada masalah belajar memainkan permainan matriks berulang yang tidak dikenal melawan lawan yang sangat kuat.

▲ Kembali ke atas

Platform Lainnya

panen138 slot login alternatif

big time gaming slots

bet mawar

55kbet slot

Berita Piala Dunia

slot 4d gacor

sports betting software free

slot slot online

mansion slots

Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]

▲ Kembali ke atas