Berjudi di Kasino Curang: Masalah Bandit Multi-Lengan Adversarial
Berjudi di Kasino Curang: Masalah Bandit Multi-Lengan Adversarial
Dalam masalah bandit multi-lengan, seorang penjudi harus memutuskan lengan mana dari K mesin slot yang tidak identik untuk dimainkan dalam serangkaian percobaan guna memaksimalkan imbalannya. Masalah klasik ini telah mendapat banyak perhatian karena model sederhana yang diberikannya tentang trade-off antara eksplorasi (mencoba setiap lengan untuk menemukan yang terbaik) dan eksploitasi (memainkan lengan yang diyakini memberikan imbalan terbaik). Solusi masa lalu untuk masalah bandit hampir selalu bergantung pada asumsi tentang statistik mesin slot. Dalam karya ini, kami tidak membuat asumsi statistik apa pun tentang sifat proses yang menghasilkan imbalan mesin slot. Kami memberikan solusi untuk masalah bandit di mana seorang lawan, bukan proses stokastik yang berperilaku baik, memiliki kendali penuh atas imbalan. Dalam serangkaian T permainan, kami membuktikan bahwa imbalan per putaran yang diharapkan dari algoritme kami mendekati imbalan lengan terbaik dengan laju O(T-1/3), dan kami memberikan laju konvergensi yang lebih baik ketika lengan terbaik memiliki imbalan yang cukup rendah. Kami juga mempertimbangkan pengaturan di mana pemain memiliki tim "ahli" yang menasihatinya tentang lengan mana yang harus dimainkan; di sini, kami memberikan strategi yang menjamin imbalan yang diharapkan mendekati imbalan ahli terbaik. Akhirnya, kami menerapkan hasil kami pada masalah belajar memainkan permainan matriks berulang yang tidak dikenal melawan lawan yang sangat kuat.
Platform Lainnya
panen138 slot login alternatif
Berita Piala Dunia
Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]