Pengantar model one-armed bandit dan penggunaannya dalam pemasaran

Apa itu model one-armed bandit?

Model one-armed bandit adalah model pembelajaran statistik yang bertujuan membuat pilihan berurutan antara beberapa tindakan berdasarkan imbalan yang dihasilkan.

Contoh penerapan (yang memberi nama pada model ini) adalah pilihan antara beberapa mesin slot, yang dalam bahasa Inggris disebut "one-armed bandit". Konteksnya sebagai berikut: seorang pemain memiliki pilihan beberapa mesin slot (disebut juga lengan) yang profitabilitas rata-ratanya tidak diketahui sebelumnya. Ketidaktahuan akan profitabilitas inilah yang menjadikannya masalah pembelajaran. Pemain memiliki anggaran tertentu, misalnya N koin sebesar 1 dolar, dan harus memainkan koin-koin ini satu per satu pada mesin slot yang berbeda. Tujuannya adalah mengumpulkan uang sebanyak mungkin setelah N kali putaran. Imbalan yang diberikan oleh mesin slot yang dipilih adalah variabel acak yang diambil dari hukum probabilitas tertentu.

Seseorang dapat menganggap bahwa pada setiap putaran, imbalan diambil dari mesin slot yang tidak dipilih, tetapi tidak diamati maupun dikumpulkan oleh pemain. Dalam contoh ini, pemain harus mengalokasikan sejumlah uang untuk menemukan mesin slot yang paling menguntungkan (disebut eksplorasi) dan sisa anggaran untuk diinvestasikan pada mesin tersebut (disebut eksploitasi). Masalah one-armed bandit dengan demikian bermuara pada penyelesaian trade-off eksplorasi/eksploitasi yang terdiri dari memilih kapan harus mengeksploitasi dan kapan harus mengeksplorasi.

Apa saja kemungkinan penerapannya dalam pemasaran?

Model one-armed bandit sangat serbaguna, karena dapat diterapkan setiap kali ada pilihan berurutan antara beberapa tindakan, dan seseorang dapat mengandalkan pengamatan imbalan untuk membuat pilihan yang tepat.

Pemilihan konten / Rekomendasi

Pilihan mesin slot pada contoh di atas dapat digantikan oleh jenis tindakan imbalan apa pun. Oleh karena itu, kita dapat membayangkan bahwa kita memiliki pilihan antara beberapa konten/banner untuk ditawarkan kepada pengguna setiap kali ia terhubung ke situs, dan kita diberi imbalan berupa klik (atau KPI lain yang ditentukan) begitu pengguna puas dengan proposal. Dengan asumsi bahwa konten sebelumnya tidak mempengaruhi reaksi pengguna, kasus penggunaan ini adalah penerapan langsung dari teori one-armed bandit. Contoh ini tentu saja dapat diperluas ke pengiriman email atau rekomendasi produk.

Mencari email/konten/landing page atau banner terbaik

Sejauh ini kita hanya berbicara tentang versi "klasik" dari one-armed bandit, yang tujuannya adalah memaksimalkan imbalan yang terakumulasi. Tujuan alternatif adalah mempelajari tindakan terbaik mana, atau tindakan mana yang lebih baik dari baseline tertentu. Model-model ini dikumpulkan dengan nama bandit eksplorasi murni (eksploitasi memang tidak lagi diperlukan dalam konteks ini). Mereka memecahkan masalah yang mirip dengan pengujian A/B, yaitu menemukan perlakuan yang paling efektif dari beberapa perlakuan. Ini membutuhkan pembagian populasi sebelumnya menjadi dua sub-populasi: satu yang akan menerima perlakuan A, dan satu lagi yang akan menerima perlakuan B.

Sebaliknya, algoritma one-armed bandit akan menetapkan individu-individu yang akan dirawat ke perlakuan A atau B secara berurutan berdasarkan imbalan yang diamati pada individu sebelumnya. Hal ini memungkinkan untuk menemukan yang terbaik lebih cepat dengan persentase kesalahan tertentu, atau mencapai hasil yang lebih signifikan dalam waktu yang sama. Konteks ini cocok misalnya jika Anda ingin menguji beberapa versi email atau banner sebelum memilih versi yang akan dikirim ke mayoritas populasi. Model ini juga sangat relevan untuk menguji berbagai halaman arahan. Pada akhirnya, kita juga dapat memilih perlakuan yang lebih rumit, seperti email + banner versus email + SMS.

Real-time bidding (RTB)

Pemilihan tawaran untuk kampanye RTB juga dapat dirumuskan sebagai masalah one-armed bandit. Tindakan-tindakannya kemudian adalah tawaran (yang dapat, tergantung pada pilihan model, diskrit atau kontinu) dan imbalannya adalah klik atau pembelian.

Kesimpulan

One-armed bandit adalah model statistik yang memodelkan pilihan berurutan antara beberapa tindakan yang menghasilkan imbalan berbeda. Model ini dapat digunakan dalam pemasaran untuk berbagai tujuan, mulai dari pemilihan konten hingga pemilihan tawaran dalam RTB. Penerapan one-armed bandit pada pemilihan tawaran merupakan topik yang menarik untuk dipelajari lebih lanjut.

▲ Kembali ke atas

Platform Lainnya

raja sawer slot

casino game baccarat

pdc world darts betting

pejuang bet slot

Berita Piala Dunia

ronin69 slot login

bell fruit slot machine

facebook casino games real money

super89 slot login

Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]

▲ Kembali ke atas