Mengenal Permainan ‘Dilema Tahanan’

Yudistira Hendra

5 years ago

Di suatu hari sialnya, dua orang perampok sebuah minimarket tertangkap polisi ketika sedang melakukan aksi. Tak ayal keduanya pun digelandang ke kantor polisi untuk diinterogasi lebih lanjut karena polisi menduga keduanya adalah bagian dari sindikat perampokan toko di kota tersebut. Meskipun begitu, polisi pada dasarnya tidak memiliki bukti bahwa keduanya adalah bagian dari sindikat yang dimaksud. Fakta sebenarnya adalah kedua penjahat tersebut memang bagian dari sindikat perampokan toko. Masing-masing perampok diinterogasi di tempat yang berbeda meskipun dilakukan bersamaan. Polisi mencoba mengungkap calon tahanan perampokan toko dari keduanya, selain tentunya menghukum mereka.

Mengacu pada peraturan, kedua perampok akan dihukum lima tahun atas perampokan yang mereka lakukan. Di sini polisi mengatur rencana untuk mendapatkan informasi dari kedua penjahat tersebut meskipun tidak ada bukti awal keduanya terlibat sindikat perampokan toko. Polisi mengatakan kepada kedua penjahat:

Jika tidak ada dari kalian yang mengaku sebagai bagian dari sindikat, maka masing-masing dari kalian akan dihukum penjara empat tahun.
Jika kamu mengaku bahwa kalian sebagai bagian dari sindikat, begitu pula kawanmu di ruangan sebelah, maka masing-masing dari kalian akan dihukum penjara tujuh tahun.
Jika kamu mengaku bahwa kalian berdua sebagai bagian dari sindikat, tetapi tidak dengan kawanmu di ruangan sebelah, maka kamu bebas dari penjara dan kawanmu akan dihukum sepuluh tahun penjara.

Situasi ini tentunya memberikan dilema bagi kedua perampok. Masalah utama mereka adalah tidak diberikannya kesempatan berkomunikasi sehingga mereka mencoba menerka apa yang dipikirkan satu sama lain. Situasi ini terkenal dengan nama ‘Dilema Tahanan’ atau dalam Bahas Inggris populer dikenal dengan ‘Prisoner’s dilemma’ yang pertama kali diinisiasi Albert Tucker pada 1950an.[5] Sebelum kita melangkah lebih jauh, kira-kira kamu akan mengaku atau tidak jika menjadi salah satu dari perampok yang tertangkap itu?

Bagaimana Kelompok Tahanan Menentukan Solusinya?

Banyak penelitian mengenai fenomena ini dan kemudian memberikan solusi atas Prisoner’s dilemma dalam berbagai asumsi yang lebih spesifik.[1][4] Namun di sini kita mulai dengan asumsi yang sederhana sebagai tambahan dari situasi permainan di atas: kedua perampok mengambil keputusan secara bersamaan. Dari sini kita bisa buat matriks yang menggambarkan strategi dan hasil yang muncul atas interaksi strategi kedua perampok.

		Perampok 2
		Mengaku	Tidak Mengaku
Perampok 1	Mengaku	-7, -7	0, -10
Perampok 1	Tidak Mengaku	-10, 0	-4, -4

Dari matriks di atas bisa kita lihat bahwa total hasil strategi terbaik bagi kedua perampok adalah dengan tidak mengaku: -4 + (-4) = -8. Namun apakah itu adalah strategi terbaik bagi masing-masing perampok?

Menilik kembali set up permainan ini, kedua perampok memiliki informasi yang tidak sempurna (di antara keduanya) karena mereka diinterogasi di dua tempat berbeda di saat bersamaan. Namun mereka memiliki informasi yang lengkap dari tawaran polisi yang sama kepada keduanya sehingga keduanya memiliki pengetahuan yang sama atas apa yang akan terjadi pada dirinya masing-masing baik jika mengaku ataupun tidak.

Mengacu pada ‘Pareto optimum’, diambil dari nama Vilfredo Pareto, strategi terbaik bagi keduanya adalah “tidak mengaku”.[2] Pareto optimum sendiri adalah sebuah situasi di mana tidak ada hasil keluaran yang bisa membuat salah satu pihak lebih baik tanpa membuat pihak lain menjadi lebih buruk. Jika kedua perampok tidak mengaku maka masing-masing akan dipenjara selama empat tahun sehingga, mudahnya, hasil keluaran dari strategi ini adalah hukuman penjara selama delapan tahun.

Namun strategi “tidak mengaku” menjadi tidak optimal mengacu pada asumsi informasi yang tidak sempurna (imperfect) tetapi lengkap (complete) dan permainan dijalankan sekali (simultaneous) tanpa komunikasi (no communication). Untuk memahaminya, masing-masing perampok harus memahami apa hal terbaik (dominant strategy) dan terburuk (dominated strategy) yang bisa menimpanya dari strategi yang dilakukan perampok lain. Dalam hal ini masing-masing perampok harus membangun kepercayaan atas apa yang akan dilakukan perampok lain dan kemudian menggunakan eliminasi strategi untuk mendapatkan strategi terbaik.

Anggaplah kita berada dalam pemikiran Perampok 1. Jika Perampok 1 mengaku, maka dia akan mendapat hukuman tujuh tahun penjara (jika Perampok 2 mengaku) atau bebas (jika Perampok 2 tidak mengaku). Oleh karenanya Perampok 1 berharap Perampok 2 tidak mengaku. Pertanyaannya adalah apakah Perampok 1 yakin jika Perampok 2 akan tidak mengaku? Sebaliknya kita juga menganalisis Perampok 2 dengan masuk ke dalam pemikirannya. Bagaimanapun juga Perampok 2 akan memilih strategi dengan berpikir apa yang akan dilakukan Perampok 1. Pun, Perampok 2 berharap dapat bebas, yang mana untuk itu, Perampok 1 harus memilih tidak mengaku dengan saat yang bersamaan Perampok 2 memilih mengaku. Dengan pertanyaan yang sama, apakah Perampok 2 pasti yakin Perampok 1 memilih tidak mengaku?

Dengan situasi seperti ini, akan sangat mungkin untuk kedua perampok memilih mengaku karena merupakan strategi paling rasional untuk dilakukan. Mereka pun mendapatkan hukuman tujuh tahun penjara. Meskipun mungkin bukan faktor satu-satunya, strategi ini dipilih masing-masing perampok karena memberikan nilai harapan manfaat yang tertinggi berdasarkan strategi yang kemungkinan besar dipilih perampok lain. Kombinasi strategi ini merupakan ‘Nash equilibrium’, diambil dari nama John Nash, yang sederhananya dapat didefinisikan sebagai kombinasi strategi dari pilihan terbaik yang dapat dilakukan seorang pemain atas pilihan terbaik pemain lain.[3]

Dari salah satu contoh kasus populer ini kita bisa tahu bahwa suatu interaksi bisa menghasilkan kondisi optimal yang tidak mengedepankan kerja sama karena memang menjadi pilihan rasional. Sebagai tambahan pula, kita juga bisa melihat bahwa kondisi optimal yang diproduksi melalui “Nash equilibrium” bisa jadi berbeda dengan “Pareto optimum”, meskipun mungkin di kasus lain keduanya menghasilkan kondisi optimal yang sama. Dari sini pula kita bisa melakukan ekstensi permainan ini dengan asumsi lain ataupun permainan lain yang mungkin bisa merepresentasikan dunia nyata.

REFERENSI

Axelrod, R. (1980). Effective choice in the Prisoner’s Dilemma. The Journal of Conflict Resolution, 24(1): 3-25.

Game Theory Net. (2005). Pareto Optimal. Diakses pada 10 Agustus 2019 dari <http://www.gametheory.net/dictionary/ParetoOptimal.html>.

Policonomics. (2017). Nash Equilibria. Diakses pada 10 Agustus 2019 dari <https://policonomics.com/lp-game-theory2-nash-equilibrium/>.

Osborne, M. J., & Rubinstein, A. (1994). A Course in Game Theory. The MIT Press: Cambridge, Massachusetts, USA.

Tucker, A. W. (1983). The mathematics of Tucker: A sampler. The Two-Year College Mathematics Journal, 14(3): 228-232.