Home GPT-5 Dijebol dengan Narasi Gema Multi-Putaran Berbahasa Indonesia: Implikasi Luas Terungkap

GPT-5 Dijebol dengan Narasi Gema Multi-Putaran Berbahasa Indonesia: Implikasi Luas Terungkap

Tech

12 August 2025

541 views

Jangan panik dulu kalau dengar ada yang bisa membobol AI. Ibaratnya, rumah baru juga kadang ada celah yang perlu ditambal, kan? Nah, GPT-5, model AI terbaru dari OpenAI, ternyata punya sedikit kelemahan yang bikin peneliti keamanan siber menggaruk-garuk kepala.

GPT-5 memang menjanjikan peningkatan signifikan dalam akurasi dan kemampuan coding. Tapi, seperti superhero yang punya kryptonite, model ini juga rentan terhadap teknik manipulasi tertentu yang disebut “jailbreaking.” Singkatnya, jailbreaking ini seperti nge-hack percakapan dengan AI agar melakukan hal-hal yang seharusnya tidak boleh.

Jailbreaking pada model GPT adalah cara untuk memanipulasi prompt atau alur percakapan agar melewati batasan keamanan dan konten yang telah ditetapkan. Metode ini melibatkan pembuatan input secara bertahap untuk mengecoh model agar menghasilkan respons yang seharusnya tidak boleh dihasilkan. Bayangkan seperti membujuk teman untuk melakukan hal iseng, tapi isengnya ini bisa berdampak serius.

Para peneliti dari NeuralTrust Inc. berhasil memanfaatkan perpaduan antara teknik Echo Chamber dan narrative storytelling untuk “membujuk” GPT-5 memberikan instruksi langkah demi langkah membuat Molotov cocktail. Serem, kan? Padahal, mereka tidak memberikan prompt yang secara eksplisit berbahaya.

Eksploitasi ini dilakukan dengan cara “meracuni” percakapan secara halus selama beberapa putaran. Peneliti memulai dengan meminta GPT-5 untuk menggunakan kata-kata tertentu bersamaan dalam sebuah kalimat, termasuk “cocktail,” “survival,” dan “Molotov,” dalam skenario survival fiktif. Interaksi selanjutnya membangun cerita dan memperkuat konteks yang “teracuni” sambil mendorong kesinambungan dan detail.

Pada akhirnya, model merespons alur narasi daripada melihat permintaan tersebut sebagai pelanggaran kebijakan. Bahkan, model tersebut memberikan instruksi berbahaya. Ini menunjukkan bahwa konteks dan alur percakapan sangat berpengaruh terhadap respons AI.

Temuan NeuralTrust sejalan dengan hasil red-teaming terpisah dari SplxAI Inc., yang menunjukkan bahwa GPT-5 lebih mampu daripada pendahulunya tetapi masih kurang kuat daripada GPT-4o ketika diuji terhadap serangan prompt yang canggih. Red-teaming ini seperti stress test untuk keamanan AI.

Apakah GPT-5 Aman? Jangan Langsung Panik!

Meskipun ada celah keamanan, bukan berarti GPT-5 sepenuhnya berbahaya. J Stephen Kowski, field chief technology officer di SlashNext Email Security+, menjelaskan bahwa kerentanan GPT-5 bermuara pada tiga hal:

Dapat diarahkan melalui beberapa putaran dengan context poisoning dan storytelling.
Masih terjebak oleh trik obfuscation sederhana.
Mewarisi risiko agent/tool ketika tautan dan fungsi ditarik ke dalam loop.

Celah ini muncul ketika pemeriksaan keamanan menilai prompt satu per satu, sementara penyerang mengerjakan seluruh percakapan, mendorong model untuk menjaga cerita tetap konsisten sampai menghasilkan sesuatu yang seharusnya tidak boleh. Ibaratnya, sistem keamanan fokus pada satu pintu, sementara pencuri masuk lewat jendela.

Satyam Sinha, founder dan chief executive di Acuvity Inc., berkomentar bahwa “temuan ini menyoroti realitas yang semakin sering kita lihat dalam keamanan AI: kemampuan model berkembang lebih cepat daripada kemampuan kita untuk memperkuatnya terhadap insiden.”

Cara Hacker “Membobol” GPT-5: Teknik Echo Chamber

Teknik Echo Chamber, salah satu metode yang digunakan untuk jailbreaking GPT-5, sebenarnya cukup sederhana. Bayangkan kamu berada di sebuah ruangan yang hanya berisi orang-orang yang setuju denganmu. Kamu akan merasa pendapatmu benar, kan? Nah, AI juga bisa “terjebak” dalam echo chamber ini.

Teknik ini bekerja dengan cara memberikan prompt berulang-ulang yang memperkuat bias atau asumsi tertentu. Dengan begitu, AI akan semakin percaya bahwa asumsi tersebut benar dan menghasilkan respons yang sesuai dengan bias tersebut, bahkan jika respons tersebut seharusnya tidak boleh dihasilkan. Ini seperti mencuci otak AI secara halus.

Identifikasi bias: Cari tahu bias atau asumsi yang ingin kamu manfaatkan.
Buat prompt: Rancang prompt yang memperkuat bias tersebut.
Ulangi: Berikan prompt tersebut berulang-ulang sampai AI “percaya”.

Tips Aman Menggunakan AI: Hindari Hal Berikut!

Meskipun ada celah keamanan pada GPT-5, ada beberapa hal yang bisa kita lakukan untuk tetap aman saat menggunakan AI. Jangan sampai kita jadi korban jailbreaking yang tidak disengaja, ya.

Hati-hati dengan prompt: Perhatikan baik-baik prompt yang kamu berikan. Hindari prompt yang ambigu, provokatif, atau mengandung bias tertentu.
Waspada terhadap respons: Jangan langsung percaya dengan semua respons yang diberikan AI. Verifikasi informasi dari sumber lain jika perlu.
Gunakan akal sehat: Ingat, AI hanyalah alat. Gunakan akal sehat dan pertimbangan logis saat menggunakan AI. Jangan biarkan AI mengambil alih kendali.

Kita harus selalu ingat bahwa keamanan AI adalah sebuah proses berkelanjutan, bukan sesuatu yang bisa diselesaikan sekali saja. Pengembangan AI harus diimbangi dengan peningkatan keamanan yang memadai. Ibaratnya, kita harus terus meng-upgrade sistem keamanan rumah kita seiring dengan perkembangan teknologi.

Sebagai penutup, walaupun GPT-5 punya celah keamanan, ini bukan akhir dari segalanya. Ini justru menjadi pengingat bagi kita semua untuk terus belajar dan beradaptasi dengan perkembangan teknologi AI. Dengan begitu, kita bisa memanfaatkan AI secara aman dan bertanggung jawab. Ingat, pengetahuan adalah kekuatan!