Siapa sangka, melihat kerusakan laptop bisa serumit ini?
Dulu, idenya tampak sederhana: menggunakan Computer Vision untuk mendeteksi kerusakan fisik pada laptop, seperti layar retak atau tombol hilang. Ternyata, semudah menekan tombol "Power" di laptop yang baru dibeli, lalu langsung bisa dipakai. Kita langsung menghadapi tantangan yang lebih kompleks dari ekspektasi.
Awalnya, model AI (Artificial Intelligence) ini malah berhalusinasi, menghasilkan laporan kerusakan yang tidak ada. Lalu, bagaimana cara membedakan foto laptop dari foto meja atau tembok? Akurasi yang tidak konsisten membuat model ini tidak bisa diandalkan. Alih-alih mendapatkan quick fix, kami harus memutar otak lebih keras lagi.
Artikel ini akan menceritakan perjalanan kami, mulai dari kegagalan hingga akhirnya menemukan solusi yang reliabel. Bersiaplah, ini bukan tutorial singkat, tapi petualangan seru di dunia Machine Learning!
Kualitas Gambar: Antara Resolusi Tinggi dan Mimpi Buruk
Salah satu hal yang kami perhatikan adalah betapa pentingnya kualitas gambar. Ada yang super jernih, ada juga yang blur seperti kenangan mantan. Penelitian menunjukkan bahwa resolusi gambar sangat memengaruhi kinerja model Deep Learning. Bayangkan, modelnya pun butuh foto yang bagus!
Kami melatih model dengan campuran gambar resolusi tinggi dan rendah. Tujuannya? Agar model lebih tahan banting menghadapi berbagai kualitas gambar. Hasilnya lumayan, konsistensi meningkat, tapi masalah halusinasi dan deteksi gambar sampah tetap menghantui. Ibarat kata, masalahnya belum clear, masih blurry.
Detour Multimodal: Ketika LLM Teks Ikut Campur Urusan Gambar
Terinspirasi dari eksperimen menggabungkan Image Captioning dengan LLM (Large Language Model) berbasis teks, kami mencoba membuat LLM ini "melihat". Caranya? LLM menghasilkan beberapa kemungkinan caption untuk sebuah gambar.
Lalu, model Multimodal Embedding memeriksa seberapa cocok setiap caption dengan gambar tersebut, menggunakan SigLIP untuk mengukur kemiripan. Caption terbaik dipertahankan, lalu LLM menggunakannya untuk menulis caption baru, mencoba mendekati apa yang sebenarnya ada di gambar. Proses ini diulang sampai caption berhenti membaik.
Sayangnya, ide keren ini justru menimbulkan masalah baru. Caption kadang-kadang berisi kerusakan imajiner, yang kemudian dengan percaya diri dilaporkan oleh LLM. Bahkan dengan banyak caption, beberapa kerusakan tetap terlewatkan. Kompleksitasnya meningkat, manfaatnya minim. Seperti mencoba menyelesaikan Rubik's Cube dengan mata tertutup.
Framework Agentic: Solusi Kreatif yang Tak Terduga
Titik balik! Framework Agentic biasanya digunakan untuk mengatur alur kerja, seperti mengkoordinasikan undangan kalender atau layanan pelanggan. Kami bertanya-tanya, bagaimana jika tugas interpretasi gambar dipecah menjadi agen-agen khusus yang lebih kecil?
Kami membangun framework agentic dengan struktur berikut:
- Agen Orkestrator: Memeriksa gambar dan mengidentifikasi komponen laptop yang terlihat (layar, keyboard, sasis, port).
- Agen Komponen: Memeriksa setiap komponen untuk jenis kerusakan tertentu (misalnya, layar retak, tombol hilang).
- Agen Deteksi Sampah: Memastikan bahwa gambar tersebut memang laptop.
Pendekatan modular dan berbasis tugas ini menghasilkan hasil yang jauh lebih presisi dan mudah dijelaskan. Halusinasi berkurang drastis, gambar sampah berhasil ditandai, dan setiap agen fokus pada tugas yang sederhana, sehingga kualitasnya lebih mudah dikontrol. Akhirnya, ada secercah harapan!
Efek Samping: Latensi dan Blind Spot
Seefektif apapun, pendekatan agentic ini tidak sempurna. Ada dua batasan utama:
- Latensi Meningkat: Menjalankan banyak agen secara berurutan menambah total waktu inference.
- Blind Spot: Agen hanya bisa mendeteksi kerusakan yang diprogram untuk dicari. Jika ada kerusakan tak terduga, agen tidak akan menyadarinya.
Kami membutuhkan cara untuk menyeimbangkan presisi dan cakupan. Ini seperti mencari jarum dalam tumpukan jerami, tapi kita tahu jarumnya ada di sana!
Solusi Hybrid: Kombinasi Terbaik dari Dua Dunia
Untuk menjembatani kesenjangan, kami menciptakan sistem hybrid:
- Framework Agentic: Menangani deteksi kerusakan yang diketahui dan gambar sampah. Jumlah agen dibatasi untuk meningkatkan latensi.
- Prompt LLM Monolitik: Memindai gambar untuk mencari kerusakan lain yang mungkin terlewatkan oleh agen.
- Fine-tuning Model: Menggunakan kumpulan gambar yang dikurasi untuk kasus penggunaan prioritas tinggi, seperti skenario kerusakan yang sering dilaporkan.
Kombinasi ini memberikan presisi dan kemampuan penjelasan dari setup agentic, cakupan luas dari prompting monolitik, dan kepercayaan diri dari fine-tuning yang ditargetkan. Ibarat menyatukan kekuatan Iron Man dan Captain America untuk menyelamatkan dunia (laptop).
Pelajaran Berharga
Beberapa hal menjadi jelas setelah proyek ini selesai:
- Framework Agentic Lebih Serbaguna: Selain mengatur alur kerja, framework agentic dapat meningkatkan kinerja model secara signifikan jika diterapkan secara terstruktur dan modular.
- Kombinasi Lebih Baik dari Satu Pendekatan: Kombinasi deteksi berbasis agen yang presisi, cakupan luas dari LLM, dan sedikit fine-tuning menghasilkan hasil yang jauh lebih andal.
- Model Visual Rentan Halusinasi: Bahkan setup yang lebih canggih pun bisa salah paham. Desain sistem yang matang diperlukan untuk mengendalikan kesalahan tersebut.
- Variasi Kualitas Gambar Penting: Melatih dan menguji dengan gambar resolusi tinggi dan rendah membantu model tetap tangguh menghadapi foto real-world yang tidak terduga.
- Deteksi Gambar Sampah Itu Wajib: Pemeriksaan gambar yang tidak relevan adalah perubahan sederhana yang berdampak besar pada keandalan sistem secara keseluruhan.
Singkatnya, jangan meremehkan kekuatan agentic framework, selalu kombinasikan berbagai pendekatan, waspadai halusinasi model, perhatikan kualitas gambar, dan jangan lupa mendeteksi gambar sampah.
Final Thoughts: Dari Kerusakan Laptop Hingga Penemuan Tak Terduga
Awalnya, idenya sederhana: menggunakan LLM prompt untuk mendeteksi kerusakan fisik pada gambar laptop. Namun, ini berubah menjadi eksperimen yang lebih mendalam dalam menggabungkan berbagai teknik AI untuk mengatasi masalah real-world yang tidak terduga. Kami menyadari bahwa beberapa tools yang paling berguna adalah yang awalnya tidak dirancang untuk pekerjaan semacam ini.
Framework agentic, yang sering dianggap sebagai utilitas alur kerja, terbukti sangat efektif ketika diubah fungsinya untuk tugas-tugas seperti deteksi kerusakan terstruktur dan penyaringan gambar. Dengan sedikit kreativitas, kami berhasil membangun sistem yang tidak hanya lebih akurat, tetapi juga lebih mudah dipahami dan dikelola dalam praktiknya. Jadi, jangan takut bereksperimen dan berpikir out of the box! Siapa tahu, solusi untuk masalah rumit ada di tempat yang paling tak terduga.