Bagaimana Saya Mengalahkan Mesin Slot di Pokemon dengan Pembelajaran Penguatan
Bagaimana Saya Mengalahkan Mesin Slot di Pokemon dengan Pembelajaran Penguatan
Pembelajaran penguatan memberikan dorongan besar bagi banyak aplikasi, khususnya di e-commerce untuk mengeksplorasi dan mengantisipasi perilaku pelanggan. Salah satu cara populer untuk memodelkan masalah bagi algoritma RL adalah sebagai 'multi-armed bandit', tetapi saya selalu merasa istilah itu terlalu rumit. Mesin slot modern mungkin memiliki tombol yang berbeda, tetapi metafora yang lebih baik adalah beberapa mesin di kasino, beberapa longgar dan beberapa ketat. Ketika saya memasuki Celadon City Game Corner di Pokémon FireRed dan melihat deretan mesin slot dengan peluang berbeda, saya tahu saya telah menemukan versi 'dunia nyata' yang ideal dari metafora ini – dan aplikasi praktis dari pembelajaran penguatan.
Saya membangun agen pembelajaran penguatan menggunakan Thompson sampling untuk memberi tahu saya mesin mana yang harus dicoba selanjutnya, dan akhirnya, mana yang harus dimainkan terus-menerus. Saya menyebutnya MACHAMP: Multi-Armed Coin Holdings Amplifier Made for Pokemon.
Cara Kerja Thompson Sampling
Diberikan serangkaian tindakan yang mungkin (lengan dari multi-armed bandit – dalam hal ini mesin yang berbeda untuk dicoba), Thompson sampling secara optimal menyeimbangkan eksplorasi vs eksploitasi untuk menemukan tindakan terbaik, dengan mencoba tindakan yang menjanjikan lebih sering, dan dengan demikian mendapatkan perkiraan yang lebih rinci tentang probabilitas hadiah mereka. Pada saat yang sama, masih secara acak menyarankan yang lain dari waktu ke waktu. Pada setiap langkah, pengetahuan sistem, dalam bentuk distribusi probabilitas posterior, diperbarui menggunakan logika Bayesian.
Sebagai demonstrasi, bayangkan kita memiliki 4 mesin slot dengan peluang pembayaran 20%, 30%, 50%, dan 45%. Kita dapat mensimulasikan bagaimana pemecah menemukan bahwa slot 3 adalah yang terbaik.
Perkiraan probabilitas sebelum penarikan: 50.0% 50.0% 50.0% 50.0%Satu langkah pemecah melibatkan pengambilan sampel acak dari distribusi probabilitas posterior masing-masing mesin, dan mencoba yang terbaik, kemudian memperbarui distribusi berdasarkan apakah ada hadiah.
MACHAMP merekomendasikan Anda mencoba mesin 4. ... Perkiraan probabilitas setelah 1 tarikan: 50.0% 50.0% 50.0% 66.7%Setelah 100 tarikan, perkiraan probabilitas menjadi lebih baik.
Perkiraan probabilitas setelah 100 tarikan: 27.3% 35.3% 52.7% 46.2% Probabilitas sebenarnya: 20.0% 30.0% 50.0% 45.0%Setelah 10000 percobaan, kita semakin yakin bahwa mesin 3 memiliki probabilitas hadiah tinggi.
Memahami Permainan dan Menyederhanakan Masalah
Ada 19 mesin slot yang dapat dimainkan di Celadon Game Corner. Tiga roda berputar, dan Anda menekan tombol untuk menghentikannya satu per satu, dengan tujuan untuk menyusun tiga gambar yang sama. Jackpot terbaik adalah triple 7 senilai 300 koin. Sebelum menggunakan Thompson sampling, saya mencari saran online yang sering kali bertentangan. Saya membuat asumsi penyederhanaan:
- Setiap mesin memiliki probabilitas tetap untuk setiap hasil.
- Probabilitas bersifat independen dari urutan atau waktu.
- Probabilitas memenangkan sesuatu pada mesin berkorelasi dengan probabilitas memenangkan jackpot.
- Berhenti pada waktu sembarang akan mensampel ruang secara seragam.
Saya memutuskan untuk bermain dengan menekan tombol 'stop' secepat mungkin tanpa memperhatikan visual, hanya mencatat apakah itu menang atau kalah, dan membiarkan Thompson sampling melalui MACHAMP memandu pilihan mesin.
Eksplorasi Sistematis Awal
Saya mencoba setiap mesin empat kali untuk menginisialisasi probabilitas posterior. Dengan hanya empat tarikan, sulit untuk menarik kesimpulan. Distribusi probabilitas posterior saling tumpang tindih.
Malam Celadon (Eksplorasi Dipandu MACHAMP)
Saya mulai menggunakan pemecah untuk merekomendasikan mesin mana yang akan dimainkan selanjutnya. Setelah setiap percobaan, saya memperbarui MACHAMP dengan hadiah yang saya dapatkan (0 atau 1), dan meminta rekomendasi.
5 mesin teratas perkiraan probabilitas: 8: 66.7% (3 dari 4) 13: 66.7% (3 dari 4) 19: 50.0% (2 dari 4) 7: 50.0% (2 dari 4) 3: 50.0% (2 dari 4) MACHAMP merekomendasikan Anda mencoba mesin 8. [Mencobanya, memberi hadiah, memperbarui MACHAMP] 5 mesin teratas perkiraan probabilitas: 8: 71.4% (4 dari 5) 13: 66.7% (3 dari 4) ...Hasil Akhir
Setelah 1000 tarikan, ada ketidakseimbangan dalam sampel mesin, condong ke mesin yang paling menjanjikan. Interval kredibel 80% menunjukkan mesin mana yang mungkin terbaik dan terburuk.
5 mesin teratas perkiraan probabilitas: 6: 42.3% (32 dari 76) 9: 42.1% (84 dari 200) 14: 41.8% (45 dari 108) 19: 41.2% (46 dari 112) 3: 40.0% (27 dari 68)Saya tidak bisa yakin mana yang terbaik, tetapi saya bisa melihat mana yang termasuk yang terbaik, seperti mesin 9 yang memiliki perkiraan probabilitas 42,1% dan interval kredibel sempit.
Mencairkan Koin
Saya memfokuskan pada mesin 9. Setelah 1000 tarikan tambahan hanya pada mesin 9, saya menang 37,7% dari waktu. Saya mendapatkan 5666 koin dalam 1000 tarikan, dengan 21 jackpot, sehingga mesin 9 memberikan penghasilan yang diharapkan sebesar 5,6 koin per tarikan. Dengan emulator Game Boy Advance berkecepatan tinggi, saya bisa melakukan sekitar 1 tarikan per detik, yang berarti sekitar 336 koin per menit.
Kesimpulan
Saya memasuki Celadon Game Corner dengan 120 koin dan keluar dengan lebih dari 10.000 koin. MACHAMP memberi saya gambaran yang kuat tentang mesin mana yang terbaik dengan cara yang paling efisien secara teoritis. Pemecah gaya MACHAMP dapat digunakan untuk memainkan permainan mini judi apa pun dari jenis ini, atau masalah apa pun yang dapat dimodelkan seperti itu, seperti pilihan antarmuka pengguna. Jangan berpikir Anda mengalahkan mesin slot nyata – mereka jauh lebih licik!
Untuk menangkap koin adalah ujian sebenarnya; untuk melatih diri sendiri adalah tujuan saya.
Platform Lainnya
Berita Piala Dunia
Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]