Home Platform Pengujian AI Dituding Bantu Perusahaan Besar Manipulasi Performa Model

Platform Pengujian AI Dituding Bantu Perusahaan Besar Manipulasi Performa Model

Tech

23 May 2025

600 views

Siapa bilang dunia kecerdasan buatan (AI) itu membosankan? Ada drama, intrik, dan bahkan sedikit kecurangan! Sebuah studi terbaru mengungkap bahwa benchmark populer untuk menguji kemampuan chatbot AI, yaitu LM Arena, mungkin tidak seadil yang kita kira. Bayangkan saja, seperti pertandingan sepak bola dimana tim-tim besar punya akses ke latihan rahasia dan wasit yang sedikit bias. Seru, kan?

Apakah LM Arena Mencurangi Pertandingan AI?

LM Arena, yang dulunya dikenal sebagai Chatbot Arena, adalah platform dimana dua model bahasa besar (LLM) yang tidak disebutkan namanya saling beradu untuk melihat siapa yang paling jago menjawab pertanyaan. Pengguna memilih output yang paling mereka sukai, dan hasilnya digunakan untuk membuat leaderboard yang melacak performa dan peningkatan masing-masing model. Singkatnya, ini seperti blind tasting anggur, tapi untuk AI.

Namun, sekelompok peneliti mengklaim bahwa benchmark ini condong ke model-model proprietary dari perusahaan teknologi raksasa. Mereka menuduh bahwa LLM besar mendapatkan "praktik pengujian pribadi yang tidak diungkapkan," memberikan mereka keuntungan yang tidak adil dibandingkan LLM open-source. Studi ini, yang dipublikasikan di preprint database arXiv, masih menunggu peer review, jadi anggap saja ini seperti gosip yang perlu diverifikasi.

Para peneliti berpendapat bahwa "koordinasi di antara segelintir penyedia dan kebijakan preferensial dari Chatbot Arena [kemudian LM Arena] terhadap kelompok kecil yang sama telah membahayakan integritas ilmiah dan peringkat Arena yang andal." Mereka menambahkan, "Sebagai komunitas, kita harus menuntut yang lebih baik." Kedengarannya seperti ada yang minta VAR dalam pertandingan AI ini.

Awalnya dibuat sebagai proyek riset di University of California, Berkeley’s Sky Computing Lab, LM Arena dengan cepat menjadi populer di kalangan perusahaan AI dan model open-source. Alih-alih mengandalkan benchmark akademis, situs ini lebih memilih analisis berbasis "vibes" dari tanggapan pengguna, dan kini menerima lebih dari 1 juta pengunjung setiap bulan.

Untuk menguji netralitas situs ini, para peneliti menganalisis lebih dari 2.8 juta pertarungan selama periode lima bulan. Analisis mereka menunjukkan bahwa segelintir penyedia preferred – model unggulan dari perusahaan seperti Meta, OpenAI, Google, dan Amazon – telah "diberi akses yang tidak proporsional ke data dan pengujian." Ini karena model mereka muncul dalam jumlah pertarungan yang lebih tinggi, memberikan versi final mereka keuntungan signifikan.

Para peneliti mencatat bahwa "Penyedia seperti Google dan OpenAI masing-masing menerima sekitar 19.2% dan 20.4% dari semua data di arena. Sebaliknya, gabungan 83 model open-weight hanya menerima sekitar 29.7% dari total data." Bayangkan saja seperti di game online, ada pay-to-win.

Keuntungan Tersembunyi di Balik Layar AI?

Para peneliti juga menemukan bahwa LLM proprietary diuji di LM Arena beberapa kali sebelum rilis resmi mereka. Akibatnya, model-model ini memiliki lebih banyak akses ke data arena, yang berarti bahwa ketika mereka akhirnya diadu melawan LLM lain, mereka dapat dengan mudah mengalahkan mereka. Hanya iterasi LLM dengan performa terbaik yang ditempatkan di leaderboard publik.

"Pada titik ekstrem, kami mengidentifikasi 27 varian LLM private yang diuji oleh Meta dalam persiapan rilis Llama-4. Kami juga menetapkan bahwa model closed proprietary diambil sampelnya pada tingkat yang lebih tinggi (jumlah pertarungan) dan memiliki lebih sedikit model yang dihapus dari arena daripada alternatif open-weight dan open-source," tulis para peneliti dalam studi tersebut. "Kedua kebijakan ini menyebabkan asimetri akses data yang besar dari waktu ke waktu."

Efeknya, para peneliti berpendapat bahwa dengan dapat menguji beberapa LLM pra-rilis, memiliki kemampuan untuk menarik skor benchmark, hanya menempatkan iterasi LLM dengan performa tertinggi di leaderboard, serta model komersial tertentu yang muncul di arena lebih sering daripada yang lain, perusahaan AI besar memiliki kemampuan untuk "meng-overfit" model mereka. Ini berpotensi meningkatkan performa arena mereka dibandingkan pesaing, tetapi itu mungkin tidak berarti model mereka harus berkualitas lebih baik.

Apakah LM Arena Masih Bisa Dipercaya?

Penelitian ini telah mempertanyakan otoritas LM Arena sebagai benchmark AI. LM Arena belum memberikan komentar resmi, tetapi mereka memposting tanggapan terhadap penelitian tersebut di platform X.

"Mengenai pernyataan bahwa beberapa penyedia model tidak diperlakukan secara adil: ini tidak benar. Mengingat kapasitas kami, kami selalu berusaha untuk menghormati semua permintaan evaluasi yang kami terima," tulis perwakilan perusahaan dalam postingan tersebut. "Jika penyedia model memilih untuk mengirimkan lebih banyak pengujian daripada penyedia model lain, ini tidak berarti penyedia model kedua diperlakukan secara tidak adil. Setiap penyedia model membuat pilihan yang berbeda tentang cara menggunakan dan menghargai preferensi manusia."

LM Arena juga mengklaim bahwa ada kesalahan dalam data dan metodologi para peneliti, dan menjawab bahwa pengembang LLM tidak dapat memilih skor terbaik untuk diungkapkan, dan hanya skor yang dicapai oleh LLM yang dirilis yang dimasukkan ke leaderboard publik.

Membangun Masa Depan Pengujian AI yang Adil

Terlepas dari itu semua, temuan ini menimbulkan pertanyaan tentang bagaimana LLM dapat diuji secara adil dan konsisten, terutama karena melewati Turing test bukanlah tolok ukur AI seperti dulu. Para ilmuwan terus mencari cara yang lebih baik untuk benar-benar menilai kemampuan AI yang berkembang pesat. Mungkin kita perlu liga AI dengan aturan yang lebih ketat, dan tentu saja, dengan wasit yang tidak bisa disogok. Atau mungkin, kita hanya perlu sedikit lebih skeptis terhadap leaderboard. Bagaimanapun, di dunia AI yang terus berkembang, satu-satunya hal yang pasti adalah bahwa tidak ada yang benar-benar pasti.