Tantangan IMO dan Taruhan dengan Eliezer
Prediksi
Eliezer dan saya secara publik menyatakan beberapa prediksi tentang kinerja AI pada IMO pada tahun 2025. Untuk menghormati posting OpenAI tentang "Solving (Some) Formal Math Problems", ada baiknya untuk menyatakan dan memperjelas prediksi kami secara publik, memberikan kesempatan terakhir untuk menyesuaikannya, dan mengatakan sedikit ke depan tentang bagaimana kami akan memperbarui.
Prediksi Kami
Eliezer dan saya melakukan pertukaran pada November 2021. Prediksi akhir saya (setelah merevisi perkiraan saya secara signifikan setelah melihat soal IMO dan ambang medali) adalah:
Saya akan memberi 4% pada "Untuk IMO 2022, 2023, 2024, atau 2025, sebuah AI yang dibangun sebelum IMO mampu memecahkan masalah tersulit" di mana "masalah tersulit" = "biasanya masalah #6, tetapi gunakan masalah #3 jika: (i) masalah 6 adalah geometri atau (ii) masalah 3 adalah kombinatorik dan masalah 6 adalah aljabar." (Lebih suka memilih masalah tersulit setelah melihat ujian, tetapi lebih baik berkomitmen pada prosedur.) Mungkin saya akan naikkan menjadi 8% untuk "mendapat emas" daripada "memecahkan masalah tersulit."
Eliezer menghabiskan lebih sedikit waktu merevisi prediksinya, tetapi mengatakan (lebih awal dalam diskusi):
Probabilitas saya setidaknya 16% [pada tantangan besar IMO jatuh], meskipun saya harus berpikir lebih banyak dan Melihat Hal-hal, dan mungkin meminta metrik menyedihkan seperti yang tersedia sebelum saya yakin mengatakan berapa banyak lagi. Paul? EDIT: Saya melihat mereka ingin menuntut agar AI dirilis secara publik sebelum hari pertama IMO, yang sayangnya terdengar seperti semacam rintangan dunia nyata kecil bodoh yang dapat mencegah proposisi seperti ini dinilai benar bahkan jika kemampuan teknis ada. Saya akan bertahan pada probabilitas >16% dari kemampuan teknis yang ada pada akhir 2025.
Jadi saya pikir kita memiliki Paul di <8%, Eliezer di >16% untuk AI yang dibuat sebelum IMO mampu mendapatkan emas (di bawah kontrol waktu dll. dari tantangan besar) di salah satu dari 2022-2025. Secara terpisah, kita memiliki Paul di <4% dari AI yang mampu memecahkan masalah "tersulit" di bawah kondisi yang sama. Saya tidak berencana merevisi prediksi saya lebih lanjut, tetapi saya akan senang jika Eliezer ingin melakukannya kapan saja dalam beberapa minggu ke depan. Sebelumnya dalam utas saya menjelaskan bahwa prediksi saya secara khusus tentang medali emas (dan menjadi lebih tajam saat kita beralih ke masalah yang lebih sulit), saya tidak terkejut dengan perak atau perunggu. Dugaan saya adalah bahwa Eliezer memiliki distribusi yang lebih luas. Komentar akan menjadi tempat yang baik bagi Eliezer untuk menyatakan prediksi lain, atau mengambil kesempatan terakhir untuk merevisi prediksi utama.
Bagaimana Saya Akan Memperbarui
Yang informatif:
- Saya pikir tantangan IMO akan menjadi bukti langsung yang signifikan bahwa AI yang kuat akan lebih cepat, atau setidaknya akan mungkin secara teknologi lebih cepat. Saya pikir ini akan menjadi bukti yang cukup signifikan, mungkin mendorong probabilitas TAI 2040 saya dari 25% menjadi 40% atau sesuatu seperti itu.
- Saya pikir ini akan menjadi bukti signifikan bahwa takeoff akan dibatasi oleh fakta sosiologis dan upaya rekayasa daripada peningkatan lambat dari penskalaan ML yang mulus. Mungkin saya akan bergerak dari 30% kemungkinan hard takeoff menjadi 50% kemungkinan hard takeoff.
- Jika Eliezer menang, dia mendapatkan 1 bit kredit epistemik. Jenis pembaruan ini berjalan lambat, dan akan lebih baik jika kita memiliki portofolio taruhan yang lebih besar, tetapi saya akan mengambil apa yang bisa kita dapatkan.
- Ini akan menjadi beberapa pembaruan untuk pandangan Eliezer bahwa "masa depan sulit diprediksi." Saya pikir kita memiliki gambaran masa depan yang cukup jelas sehingga kita berhak terkejut dengan kemenangan tantangan IMO; jika saya salah tentang itu, itu adalah bukti umum bahwa batas kesalahan saya terlalu sempit.
Yang tidak informatif:
- Ini sebagian besar hanya ujian mentah dari intuisi tertentu yang saya miliki tentang bidang yang belum pernah saya geluti. Ini tetap menarik (lihat di atas), tetapi tidak terlalu berkaitan dengan fakta mendalam tentang kecerdasan (perasaan saya adalah bahwa Eliezer dan saya optimis tentang metode serupa untuk pembuktian teorema), atau heuristik tentang ekstrapolasi tren (karena kita hampir tidak memiliki tren untuk diekstrapolasi), atau tentang kemajuan yang berkelanjutan di area yang ramai (karena investasi pembuktian teorema secara historis rendah), atau tentang banyak investasi pra-singularitas di bidang yang penting secara ekonomi (karena pembuktian teorema relatif berdampak rendah). Saya pikir ada banyak pertanyaan lain yang _berkaitan_ dengan hal-hal ini, tetapi kami tidak dapat memilih ketidaksepakatan pada salah satu dari mereka.
Jika AI memenangkan emas di beberapa tahun tetapi tidak semua tahun itu, tanpa mampu memecahkan masalah tersulit, maka pembaruan saya akan agak lebih terbatas tetapi dalam arah yang sama. Jika AI memenangkan perunggu/perak, saya tidak membuat pembaruan ini dan tidak berpikir Eliezer mendapat kredit kecuali dia ingin mempertaruhkan beberapa prediksi pada batas yang lebih rendah itu (saya menganggapnya jauh lebih mungkin, mungkin 20% untuk "perunggu atau perak" vs 8% pada "emas," tetapi itu kurang dipertimbangkan daripada taruhan di atas, dan saya belum memikirkannya sama sekali).
Catatan Kaki
1. Kami juga mencari klaim yang menurut Eliezer sangat tidak mungkin, sehingga dia juga memiliki kesempatan untuk membuat beberapa prediksi yang sangat mengejutkan. Tapi kami tidak dapat menemukan ketidaksepakatan yang bersih yang akan selesai sebelum akhir zaman.
2. Saya sebelumnya menambahkan teks: "Jadi misalnya jika Eliezer dan saya sebelumnya mendapat bobot yang sama dalam campuran ahli, sekarang Eliezer harus mendapat 2x bobot saya. Sebaliknya, jika saya menang maka saya harus mendapat 1,1x bobotnya." Tapi saya pikir itu sangat tergantung pada bagaimana Anda ingin menetapkan bobot. Itu adalah algoritma yang sangat alami yang saya dukung secara umum, tetapi mengingat bahwa tidak satu pun dari kita benar-benar memikirkan pertanyaan ini dengan hati-hati, akan masuk akal untuk tidak memperbarui banyak satu arah atau yang lain.
3. Lebih banyak jika dia memilih untuk merevisi prediksinya naik dari 16%, atau jika dia ingin membuat taruhan tentang klaim "masalah tersulit" di mana saya di 4%.
Seorang komentator menyiapkan pasar Manifold untuk ini. Saya menurunkan pasar dari 58% menjadi 40% yang tampak seperti pencurian berdasarkan merit. Tampaknya akan mengunci uang saya mengingat garis waktu resolusi yang panjang, kecuali jika orang akhirnya menetap pada konsensus yang jauh lebih rendah. Kami memiliki beberapa proposal tentatif untuk mengatasi masalah ini, termasuk pinjaman kecil tanpa bunga, pinjaman margin, pasar derivatif, dan demurrage.
Seorang komentator lain menekankan bahwa kami tiba pada ketidaksepakatan konkret ini setelah saya menyebutkan beberapa prediksi Paul yang pasti bisa terjadi yang menurut saya lebih mungkin di alam semesta Paul daripada alam semesta saya sendiri, termasuk programmer tingkat Mike Blume rata-rata menghasilkan $10M/tahun, ekonomi dunia berlipat ganda dalam periode empat tahun sebelum dunia berakhir, dan $10 triliun dihabiskan untuk melatih model AI. Saya akan senang bertaruh tentang pertumbuhan cepat sebelum akhir dunia. Saya akan memberikan probabilitas lebih tinggi jika kita melonggarkan 2045.
Pasar sekarang telah selesai menjadi ya, dengan Paul mengonfirmasi. Pada saat kita sampai di sini, saya merasa kehilangan jejak model sebenarnya yang menghasilkan ketidaksepakatan ini. Anda mungkin ingin memikirkan kembali definisi "masalah tersulit" karena komite IMO mungkin tidak peduli bahwa masalah mereka sulit bagi mesin maupun manusia. Jika masalah 6 adalah geometri, maka masalah 3 adalah yang "tersulit", dan itu bisa menjadi masalah yang mudah bagi mesin. Seperti yang didefinisikan, saya akan menempatkan probabilitas lebih tinggi pada pemecahan "masalah tersulit" daripada mendapatkan medali emas dan akan bertaruh pada itu.
Ya, ini mungkin benar. Saya setuju bahwa IMO 2015 masalah 3 dapat dipecahkan oleh mesin. Saya pikir baik geometri dan pertidaksamaan 3 variabel bisa menjadi masalah yang sangat besar. Pada tahun 2022, pemahaman samar saya adalah bahwa komite jauh lebih kecil kemungkinannya untuk menempatkan jenis pertanyaan itu di slot tersulit karena semakin banyak kontestan yang pada dasarnya dapat melakukan bukti seperti mesin. Tapi saya mungkin tidak boleh mengandalkan itu, karena masalah besarnya adalah kita membiarkannya menang di salah satu dari 4 IMO. Saya kira kita memiliki sekitar 2-3% kemungkinan pertidaksamaan 3 variabel di posisi tersulit (belum terjadi dalam 20 tahun terakhir dan semakin kecil kemungkinannya, tapi tidak _itu_ yakin). Kandidat definisi lain akan mencakup secara eksplisit menandai pertidaksamaan variabel angka konstan atau persamaan diophantine atau persamaan fungsional sebagai kasus khusus untuk diperingkat lebih rendah, atau memiliki preferensi yang lebih kuat untuk kombinatorik. Saya juga setuju bahwa "kasus khusus dari hasil yang ada" itu masuk akal, tapi saya pikir itu akan menjadi <1%.
Jika Eliezer ingin benar-benar bertaruh tentang klaim masalah tersulit, saya mungkin ingin berdebat untuk beberapa reformulasi. Jika Eliezer tidak ingin bertaruh tentang itu, saya pikir tidak apa-apa untuk mendenda saya secara epistemik jika AI berakhir mendapatkan "masalah tersulit" yang merupakan pertidaksamaan 3 variabel atau persamaan fungsional atau diophantine yang dapat dibash, meskipun saya pikir itu agak teknis / kesalahan umum dalam peramalan saya daripada klaim tentang AI.
Bukankah lebih menarik bertaruh pada emas daripada masalah tersulit? Yang pertama tampaknya rata-rata atas banyak bit acak dari potensi nasib buruk. Dan jika bot dapat melakukan masalah tersulit, bukankah kemungkinan besar ia dapat melakukan masalah lain juga? Masalah 1 dan 4 seringkali sangat mudah dan hampir mekanis bagi manusia. Dan tidak jarang 2 dari masalah lainnya kebetulan mudah juga. Terkadang Anda bisa mendapatkan emas dengan memecahkan hanya 4/6 masalah, dan itu tidak berkorelasi baik dengan apakah masalah tersebut mudah untuk mesin. Jadi jika Anda mendapatkan 4 ayunan, tampaknya cukup mungkin bahwa salah satunya akan cukup mudah, dan itu mendominasi P(emas). Apa yang saya ungkapkan dengan prediksi yang lebih percaya diri adalah gagasan seperti "Masalah IMO tersulit, dan terutama masalah _ad hoc_, tampak sangat sulit bagi mesin." Di antara manusia, memecahkan masalah tersebut cukup berkorelasi dengan mendapatkan emas, tetapi sayangnya untuk mesin, tampaknya cukup bising sehingga probabilitas saya harus naik jauh. Sayangnya "masalah tersulit" juga bising dengan caranya sendiri (sebagian besar karena definisi mekanis "tersulit" tidak bagus) jadi ini bukan perbaikan yang hebat.
Hmm, dalam hal ini, apakah "semua masalah" lebih baik daripada "masalah tersulit" atau "emas"? Suntingan: sekarang merujuk pada catatan kaki 2, lihat di bawah.
Mengenai kredit epistemik: Jika Anda menyatakan bahwa pengamat _harus_ memperbarui misalnya dari 1:1 menjadi 2:1 ke arah Eliezer jika dia menang, itu tampak terlalu kuat bagi saya, terutama karena tidak satu pun dari Anda tampaknya telah menghabiskan banyak usaha pada pertanyaan IMO. Saya akan sangat tertarik mendengar mengapa Anda berpikir kami harus memperbarui sebanyak itu. Angka-angka ini berasal dari jika masing-masing pihak benar-benar berada dalam campuran ahli, atau setara dengan Kelly-betting poin kredit epistemik mereka di pasar prediksi. Kami mungkin memperbarui lebih sedikit karena kombinasi dari bukti lain yang kami miliki tentang Paul dan Eliezer tidak independen dengan ini, dan taruhan antara Paul yang berpikir selama beberapa jam, dan Eliezer yang berpikir selama beberapa jam. Tapi apa yang benar-benar ingin kita putuskan adalah antara model Paul yang benar vs model Eliezer yang benar, dan taruhan itu bukan bukti sempurna tentang itu. Saya tidak benar-benar berpikir kami memiliki pandangan yang sangat hati-hati; akan masuk akal untuk tidak memperbarui banyak. ETA: Saya memindahkan teks itu ke catatan kaki karena saya pada dasarnya setuju bahwa itu tidak masuk akal sebagai resep.
Selamat telah menyelesaikan taruhan! Ini tampaknya banyak pekerjaan. Saya akan mengambil sisi Eliezer dari taruhan ini (tapi saya pikir karena alasan yang berbeda darinya). Saya percaya kebanyakan orang yang bekerja di deep learning (tetapi tidak memiliki bukti internal tentang upaya pembuktian teorema tertentu yang sedang berlangsung) berada di pihak Eliezer dan akan pergi lebih tinggi dari 16%. Di dunia yang lebih luas, saya pikir mungkin lebih terbagi, dan saya kira sebagian besar akademisi di AI akan berada di pihak saya meskipun saya tidak yakin. Ini pasti hal yang membuat saya tidak nyaman tentang taruhan (saya akan senang jika Eliezer yang memiliki pandangan lebih kontrarian, dan posisi saya lebih dekat ke 50-50, tetapi Anda mendapatkan apa yang Anda dapatkan).
Seorang komentator dengan pengalaman IMO dan RMM menunjukkan bahwa rasio probabilitas "AI memecahkan masalah tersulit" dan "AI mendapat emas" tidak tepat. Paul berada di IMO 2008, tapi dia mungkin lupa beberapa detail. Juri IMO tidak mempertimbangkan "bashability" masalah sebagai faktor keputusan, dalam rezim di mana pengbash akan memakan waktu lebih dari beberapa jam bagi kontestan yang baik. Tapi untuk program bash khusus, itu tidak membuat perbedaan. Kemungkinan besar "AI" yang memecahkan sebagian besar masalah geometri IMO mungkin terjadi hari ini -- kesulitan utama adalah mengubah teks menjadi pernyataan aljabar. Dengan itu, pemecah sistem polinomial harus dengan mudah menangani masalah seperti itu. Urutan masalah adalah (Hari 1: CNG, Hari 2: GAC). Pemecah geometri memberi Anda 14 poin. Untuk peluang emas IMO, Anda harus memecahkan masalah kombinatorik termudah, ditambah satu dari aljabar atau teori bilangan. Mengingat kemajuan baru-baru ini pada masalah pengkodean seperti di AlphaCode, saya menempatkan lebih dari 50% probabilitas pada masalah kombinatorik IMO #1/#4 yang dapat dipecahkan pada tahun 2024. Jika itu ternyata benar, maka peristiwa "AI mendapat emas" menjadi "AI memecahkan masalah N sedang atau masalah A sedang, atau keduanya jika kontestan menganggapnya mudah". Sekarang, seperti yang dicatat di tempat lain dalam utas, ada berbagai jenis masalah N dan A yang mungkin kita anggap "mudah" bagi AI. Beberapa IMO dalam sepuluh tahun terakhir mengandung hal-hal tersebut. Pada 2015, lima masalah termudah terdiri dari: dua masalah G yang dapat dibash (#3, #4), C mudah (#1), persamaan diophantine N (#2) dan persamaan fungsional A (#5). Dengan set masalah seperti itu, AI khusus mungkin bisa mencetak 35 poin, tanpa memiliki kemampuan yang cukup untuk menangani kombinatorik #6. Satu-satunya cara probabilitas Emas bisa sebanding dengan probabilitas "masalah tersulit" adalah jika taruhan hanya memperhitungkan model pemecahan masalah umum. Jika tidak, bias induktif yang bisa dibangun ke dalam model semacam itu (misalnya menggunakan pemecah persamaan diophantine khusus) membantu lebih banyak dalam satu daripada yang lain.
Saya pikir ini cukup masuk akal. Kedua probabilitas agak tinggi karena ada banyak masalah IMO yang mudah. Seperti Anda, saya pikir "masalah tersulit" cukup lebih sulit daripada emas, meskipun tampaknya Anda berpikir kesenjangannya lebih besar. Secara keseluruhan, saya pikir AI dapat memecahkan sebagian besar masalah geometri dan pertidaksamaan 3 variabel secara gratis, dan banyak persamaan fungsional dan persamaan diophantine tampak mudah. Dan saya pikir masalah termudah juga mungkin dapat dipecahkan. Di beberapa tahun ini mungkin memungkinkannya mendapatkan emas (misalnya 2015 adalah tahun yang baik), tetapi biasanya saya pikir ia masih akan dihadapkan pada masalah yang di luar jangkauan. Saya akan menempatkan probabilitas lebih rendah untuk "masalah tersulit" jika kita benar-benar dapat memilih masalah yang sangat sulit; risiko utamanya adalah bahwa kadang-kadang masalah tersulit yang didefinisikan dengan cara ini juga akan dapat dibash karena satu dan lain alasan. Saat ini Eliezer memiliki emas di "16%+" dan saya di "8%". Saya pikir Eliezer mungkin ingin mengklaim lebih dari faktor 2 kredit epistemik jika ini terjadi (misalnya pembaruan yang lebih signifikan daripada jika saya menempatkan 1/3 probabilitas pada sesuatu dan dia menempatkan 2/3 probabilitas). Jika itu benar, maka saya pikir akan baik untuk secara publik menyatakan probabilitas yang lebih tinggi dari 16% sebelumnya, sehingga saya bisa mendapatkan kredit yang sesuai di dunia di mana ini tidak terjadi. Setelah memposting ini dan mengirim email ke Eliezer, saya sekarang menganggap prediksinya sebagai 16% datar. Jadi itu 1 bit kredit epistemik untuknya jika itu terjadi, 1/8 bit untuk saya jika tidak. Saya memutuskan untuk memposting perkiraan saya. Saya akan pergi dengan 30%. Saya penasaran apakah Anda bisa menjelaskan proses pemikiran di balik perkiraan setinggi itu. Tidak juga, hanya intuisi bahwa itu akan lebih mudah daripada yang diperkirakan kebanyakan orang, dan apa yang telah kita lihat sejauh ini adalah ujung tipis dari sebuah irisan yang akan dipalu cukup cepat. Pasar ini pasti menunjukkan beberapa perilaku aneh pada awalnya.
Platform Lainnya
Berita Piala Dunia
Jika Anda memiliki pertanyaan, silakan kirim email ke [email protected]