Dari Halusinasi ke Perangkat Keras: Ketika Visi Komputer Nyata Berbelok Arah

Sarah Dilla

Tech

29 June 2025

4 min read

380 views

Home Dari Halusinasi ke Perangkat Keras: Ketika Visi Komputer Nyata Berbelok Arah

Siapa sangka, melihat kerusakan laptop bisa serumit ini?

Dulu, idenya tampak sederhana: menggunakan Computer Vision untuk mendeteksi kerusakan fisik pada laptop, seperti layar retak atau tombol hilang. Ternyata, semudah menekan tombol "Power" di laptop yang baru dibeli, lalu langsung bisa dipakai. Kita langsung menghadapi tantangan yang lebih kompleks dari ekspektasi.

Awalnya, model AI (Artificial Intelligence) ini malah berhalusinasi, menghasilkan laporan kerusakan yang tidak ada. Lalu, bagaimana cara membedakan foto laptop dari foto meja atau tembok? Akurasi yang tidak konsisten membuat model ini tidak bisa diandalkan. Alih-alih mendapatkan quick fix, kami harus memutar otak lebih keras lagi.

Artikel ini akan menceritakan perjalanan kami, mulai dari kegagalan hingga akhirnya menemukan solusi yang reliabel. Bersiaplah, ini bukan tutorial singkat, tapi petualangan seru di dunia Machine Learning!

Kualitas Gambar: Antara Resolusi Tinggi dan Mimpi Buruk

Salah satu hal yang kami perhatikan adalah betapa pentingnya kualitas gambar. Ada yang super jernih, ada juga yang blur seperti kenangan mantan. Penelitian menunjukkan bahwa resolusi gambar sangat memengaruhi kinerja model Deep Learning. Bayangkan, modelnya pun butuh foto yang bagus!

Kami melatih model dengan campuran gambar resolusi tinggi dan rendah. Tujuannya? Agar model lebih tahan banting menghadapi berbagai kualitas gambar. Hasilnya lumayan, konsistensi meningkat, tapi masalah halusinasi dan deteksi gambar sampah tetap menghantui. Ibarat kata, masalahnya belum clear, masih blurry.

Detour Multimodal: Ketika LLM Teks Ikut Campur Urusan Gambar

Terinspirasi dari eksperimen menggabungkan Image Captioning dengan LLM (Large Language Model) berbasis teks, kami mencoba membuat LLM ini "melihat". Caranya? LLM menghasilkan beberapa kemungkinan caption untuk sebuah gambar.

Lalu, model Multimodal Embedding memeriksa seberapa cocok setiap caption dengan gambar tersebut, menggunakan SigLIP untuk mengukur kemiripan. Caption terbaik dipertahankan, lalu LLM menggunakannya untuk menulis caption baru, mencoba mendekati apa yang sebenarnya ada di gambar. Proses ini diulang sampai caption berhenti membaik.

Sayangnya, ide keren ini justru menimbulkan masalah baru. Caption kadang-kadang berisi kerusakan imajiner, yang kemudian dengan percaya diri dilaporkan oleh LLM. Bahkan dengan banyak caption, beberapa kerusakan tetap terlewatkan. Kompleksitasnya meningkat, manfaatnya minim. Seperti mencoba menyelesaikan Rubik’s Cube dengan mata tertutup.

Framework Agentic: Solusi Kreatif yang Tak Terduga

Titik balik! Framework Agentic biasanya digunakan untuk mengatur alur kerja, seperti mengkoordinasikan undangan kalender atau layanan pelanggan. Kami bertanya-tanya, bagaimana jika tugas interpretasi gambar dipecah menjadi agen-agen khusus yang lebih kecil?

Kami membangun framework agentic dengan struktur berikut:

Agen Orkestrator: Memeriksa gambar dan mengidentifikasi komponen laptop yang terlihat (layar, keyboard, sasis, port).
Agen Komponen: Memeriksa setiap komponen untuk jenis kerusakan tertentu (misalnya, layar retak, tombol hilang).
Agen Deteksi Sampah: Memastikan bahwa gambar tersebut memang laptop.

Pendekatan modular dan berbasis tugas ini menghasilkan hasil yang jauh lebih presisi dan mudah dijelaskan. Halusinasi berkurang drastis, gambar sampah berhasil ditandai, dan setiap agen fokus pada tugas yang sederhana, sehingga kualitasnya lebih mudah dikontrol. Akhirnya, ada secercah harapan!

Efek Samping: Latensi dan Blind Spot

Seefektif apapun, pendekatan agentic ini tidak sempurna. Ada dua batasan utama:

Latensi Meningkat: Menjalankan banyak agen secara berurutan menambah total waktu inference.
Blind Spot: Agen hanya bisa mendeteksi kerusakan yang diprogram untuk dicari. Jika ada kerusakan tak terduga, agen tidak akan menyadarinya.

Kami membutuhkan cara untuk menyeimbangkan presisi dan cakupan. Ini seperti mencari jarum dalam tumpukan jerami, tapi kita tahu jarumnya ada di sana!

Solusi Hybrid: Kombinasi Terbaik dari Dua Dunia

Untuk menjembatani kesenjangan, kami menciptakan sistem hybrid:

Framework Agentic: Menangani deteksi kerusakan yang diketahui dan gambar sampah. Jumlah agen dibatasi untuk meningkatkan latensi.
Prompt LLM Monolitik: Memindai gambar untuk mencari kerusakan lain yang mungkin terlewatkan oleh agen.
Fine-tuning Model: Menggunakan kumpulan gambar yang dikurasi untuk kasus penggunaan prioritas tinggi, seperti skenario kerusakan yang sering dilaporkan.

Kombinasi ini memberikan presisi dan kemampuan penjelasan dari setup agentic, cakupan luas dari prompting monolitik, dan kepercayaan diri dari fine-tuning yang ditargetkan. Ibarat menyatukan kekuatan Iron Man dan Captain America untuk menyelamatkan dunia (laptop).

Pelajaran Berharga

Beberapa hal menjadi jelas setelah proyek ini selesai:

Framework Agentic Lebih Serbaguna: Selain mengatur alur kerja, framework agentic dapat meningkatkan kinerja model secara signifikan jika diterapkan secara terstruktur dan modular.
Kombinasi Lebih Baik dari Satu Pendekatan: Kombinasi deteksi berbasis agen yang presisi, cakupan luas dari LLM, dan sedikit fine-tuning menghasilkan hasil yang jauh lebih andal.
Model Visual Rentan Halusinasi: Bahkan setup yang lebih canggih pun bisa salah paham. Desain sistem yang matang diperlukan untuk mengendalikan kesalahan tersebut.
Variasi Kualitas Gambar Penting: Melatih dan menguji dengan gambar resolusi tinggi dan rendah membantu model tetap tangguh menghadapi foto real-world yang tidak terduga.
Deteksi Gambar Sampah Itu Wajib: Pemeriksaan gambar yang tidak relevan adalah perubahan sederhana yang berdampak besar pada keandalan sistem secara keseluruhan.

Singkatnya, jangan meremehkan kekuatan agentic framework, selalu kombinasikan berbagai pendekatan, waspadai halusinasi model, perhatikan kualitas gambar, dan jangan lupa mendeteksi gambar sampah.

Final Thoughts: Dari Kerusakan Laptop Hingga Penemuan Tak Terduga

Awalnya, idenya sederhana: menggunakan LLM prompt untuk mendeteksi kerusakan fisik pada gambar laptop. Namun, ini berubah menjadi eksperimen yang lebih mendalam dalam menggabungkan berbagai teknik AI untuk mengatasi masalah real-world yang tidak terduga. Kami menyadari bahwa beberapa tools yang paling berguna adalah yang awalnya tidak dirancang untuk pekerjaan semacam ini.

Framework agentic, yang sering dianggap sebagai utilitas alur kerja, terbukti sangat efektif ketika diubah fungsinya untuk tugas-tugas seperti deteksi kerusakan terstruktur dan penyaringan gambar. Dengan sedikit kreativitas, kami berhasil membangun sistem yang tidak hanya lebih akurat, tetapi juga lebih mudah dipahami dan dikelola dalam praktiknya. Jadi, jangan takut bereksperimen dan berpikir out of the box! Siapa tahu, solusi untuk masalah rumit ada di tempat yang paling tak terduga.

Updated: Jun 29, 2025

Jangan lewatkan kesempatan klaim game gratis senilai Rp 400 ribu untuk PC

29 June 2025

3 min read

Dampak Pembangunan AI Lokal bagi Indonesia

29 June 2025

3 min read

Add a comment

Featured

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

156 views

Pelajaran Kepemimpinan Tersembunyi dari Para Nonna Netflix

29 June 2025

3 min read

Tech

MotoAmerica: Hasil Balapan Pertama Royal Enfield Build Train Race di The Ridge – Majalah Roadracing World

29 June 2025

4 min read

Tech

Kertas Kado Tsujio Ippei Ubah Hadiah Jadi Roti

29 June 2025

3 min read

Nintendo Switch 2: Bocoran Desain, Spesifikasi, dan Kesiapan Peluncuran

Smartwatch Stylish dengan Fitur Super Lengkap, Cuma Rp1.299.000!

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Battlefield 6: Mode Single-Player Mengecewakan? Nasibnya di Ujung Tanduk!

Starsand Island: Game Sim Mirip Ghibli Rilis Demo Oktober, Siap Bikin Nagih!

EA Mau Go Private? Nilai Valuasi Rp785 Triliun & Implikasinya Buat Gamer Indonesia

Perrie Edwards: Solo, Album Baru, dan Dukungan Little Mix Tetap Solid

Kastle Kreme: Ikon Galesburg Rayakan 50 Tahun, Nostalgia Rasa Abadi!

Royal Sorrow: ‘Innerdeeps’ Menggebrak Scene Progressive Metal Finlandia

Tame Impala Rilis “Dracula” dari Album “Deadbeat” Sambil Umumkan Jadwal Tur!

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

Jugband Blues: Ayah Penulis Surat Kabar Terkejut Jadi Bagian dari ‘Sonic Mayhem’ Pink Floyd

Pandemi Agreement WHO: Apa Artinya Bagi Generasi Muda Indonesia?

Taylor Swift Dominasi SiriusXM: Hadirkan “Taylor’s Channel 13” Jelang Album Baru

Dari Halusinasi ke Perangkat Keras: Ketika Visi Komputer Nyata Berbelok Arah

Kualitas Gambar: Antara Resolusi Tinggi dan Mimpi Buruk

Detour Multimodal: Ketika LLM Teks Ikut Campur Urusan Gambar

Framework Agentic: Solusi Kreatif yang Tak Terduga

Efek Samping: Latensi dan Blind Spot

Solusi Hybrid: Kombinasi Terbaik dari Dua Dunia

Pelajaran Berharga

Final Thoughts: Dari Kerusakan Laptop Hingga Penemuan Tak Terduga

Jangan lewatkan kesempatan klaim game gratis senilai Rp 400 ribu untuk PC

Dampak Pembangunan AI Lokal bagi Indonesia

Leave a Reply Cancel reply

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

GO-OZ: Sandal VR Keren Bikin Jalan-Jalan di Game Jadi Lebih Nyata!

Aerosmith Gebrak Lagi! EP Baru Bareng Yungblud Obati Rindu Fans Rock

You May Be Interested

Pelajaran Kepemimpinan Tersembunyi dari Para Nonna Netflix

MotoAmerica: Hasil Balapan Pertama Royal Enfield Build Train Race di The Ridge – Majalah Roadracing World

Kertas Kado Tsujio Ippei Ubah Hadiah Jadi Roti

Solusi Internet Kencang Tanpa Ribet dengan Smartfren ROSA 4G CAT6

Nintendo Switch 2: Bocoran Desain, Spesifikasi, dan Kesiapan Peluncuran

Nintendo Switch 2: Raksasa Baru yang Ditunggu Gamer Dunia

Smartwatch Stylish dengan Fitur Super Lengkap, Cuma Rp1.299.000!

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Battlefield 6: Mode Single-Player Mengecewakan? Nasibnya di Ujung Tanduk!

Starsand Island: Game Sim Mirip Ghibli Rilis Demo Oktober, Siap Bikin Nagih!

EA Mau Go Private? Nilai Valuasi Rp785 Triliun & Implikasinya Buat Gamer Indonesia

Perrie Edwards: Solo, Album Baru, dan Dukungan Little Mix Tetap Solid

Kastle Kreme: Ikon Galesburg Rayakan 50 Tahun, Nostalgia Rasa Abadi!

Royal Sorrow: ‘Innerdeeps’ Menggebrak Scene Progressive Metal Finlandia

Tame Impala Rilis “Dracula” dari Album “Deadbeat” Sambil Umumkan Jadwal Tur!

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

Jugband Blues: Ayah Penulis Surat Kabar Terkejut Jadi Bagian dari ‘Sonic Mayhem’ Pink Floyd

Pandemi Agreement WHO: Apa Artinya Bagi Generasi Muda Indonesia?

Taylor Swift Dominasi SiriusXM: Hadirkan “Taylor’s Channel 13” Jelang Album Baru

Dari Halusinasi ke Perangkat Keras: Ketika Visi Komputer Nyata Berbelok Arah

Kualitas Gambar: Antara Resolusi Tinggi dan Mimpi Buruk

Detour Multimodal: Ketika LLM Teks Ikut Campur Urusan Gambar

Framework Agentic: Solusi Kreatif yang Tak Terduga

Efek Samping: Latensi dan Blind Spot

Solusi Hybrid: Kombinasi Terbaik dari Dua Dunia

Pelajaran Berharga

Final Thoughts: Dari Kerusakan Laptop Hingga Penemuan Tak Terduga

Jangan lewatkan kesempatan klaim game gratis senilai Rp 400 ribu untuk PC

Dampak Pembangunan AI Lokal bagi Indonesia

Leave a Reply Cancel reply

Become a Contributor

Erenshor Mengguncang! Update Badai Hadir, Kelas Stormcaller Baru Bikin Nagih!

Kim Woo-Bin: Kesetiaan 10 Tahun ke Pelatih Fitnessnya Menginspirasi, Lebih dari Sekadar Otot

GO-OZ: Sandal VR Keren Bikin Jalan-Jalan di Game Jadi Lebih Nyata!

You May Be Interested

Pelajaran Kepemimpinan Tersembunyi dari Para Nonna Netflix

MotoAmerica: Hasil Balapan Pertama Royal Enfield Build Train Race di The Ridge – Majalah Roadracing World

Kertas Kado Tsujio Ippei Ubah Hadiah Jadi Roti