Dark Mode Light Mode

Implikasi Evaluasi Model Bahasa Besar Lokal untuk Diagnosis Obstructive Sleep Apnea di Indonesia

Mimpi di Era AI: Menganalisis Data Polysomnografi dengan Large Language Models Lokal

Kebayang nggak sih, di masa depan, ngantuk-ngantuk dikit langsung di-diagnose sama AI? Dunia kedokteran tidur lagi rame nih, tapi kali ini bukan soal kopi, melainkan soal pemanfaatan Large Language Models (LLMs) buat analisis polysomnography (PSG). PSG itu kayak rekaman tidur, lengkap dengan detak jantung, gelombang otak, dan segala macam drama yang terjadi saat kita terlelap. Biasanya, analisis PSG ini butuh tenaga ahli yang nggak sedikit. Nah, muncul ide brilian: gimana kalau AI aja yang bantu?

Kenapa LLMs? Soalnya, mereka ini bukan specialist sempit, tapi generalis yang dilatih dengan data super banyak dan beragam. Jadi, satu model bisa dipake buat macem-macem keperluan dengan biaya yang lebih efisien. Udah ada penelitian yang nunjukkin efektivitas ChatGPT dalam menganalisis data PSG, bahkan memberikan rekomendasi terapi untuk kasus-kasus sintetis. Tapi, masalahnya, data yang dipake itu sintetis, alias bohongan. Kan nggak lucu kalo AI salah diagnose gara-gara datanya palsu.

Kekhawatiran lainnya adalah masalah data protection. Bayangin data tidur pribadi kita bocor ke internet, kan ngeri-ngeri sedap. Makanya, muncul ide buat pake LLMs yang bisa jalan lokal, tanpa transfer data ke server eksternal. Jadi, semua analisis dilakukan di komputer sendiri, aman dari intaian hacker dan big data. Studi ini jadi yang pertama menganalisis data PSG pasien real-world pake tiga LLMs yang jalan lokal, sambil dibandingkan dengan diagnosis dan rekomendasi terapi dari dokter spesialis tidur beneran.

PSG di Era Digital: LLM Lokal vs Dokter Spesialis

Penelitian ini menggunakan data dari 30 pasien yang menjalani PSG pertama kali. Semua pasien ini punya keluhan khas obstructive sleep apnea (OSA), kayak ngorok, henti napas saat tidur, atau ngantuk berlebihan di siang hari. Data PSG ini disajikan dalam format tabel pdf yang detail banget, mulai dari nama pasien, tanggal lahir, berat badan, sampe indeks pernapasan (AHI).

Berikut daftar parameter yang dianalisis oleh LLM dan dokter:

  • Data Demografis (Nama, Tanggal Lahir, Tinggi, Berat, Jenis Kelamin, BMI)
  • Waktu Pengukuran PSG (Mulai, Selesai, Durasi)
  • Indeks Pernapasan (AHI, RDI, AI, HI)
  • Gangguan Pernapasan (CSA, Apnea, Hypopnea, RERA)
  • Jantung (HR Max, HR Mean, HR Min)
  • Desaturasi Oksigen (ODI, Desaturasi < 90%)
  • Gerakan Kaki (LM, PLM)
  • Arsitektur Tidur (Latensi Tidur, Stage N1/N2/N3/REM/Awake)
  • Posisi Tubuh dan Pengaruhnya pada Pernapasan
  • Interpretasi Dokter (Diagnosis, Terapi)

Nah, biar LLMs nggak terpengaruh, interpretasi dokter di pdf itu disensor dulu. Trus, pdf diedit itu dikasih ke LLMs yang jalan di laptop standar. Tiga LLMs yang diuji adalah Meta-Llama-3-8B-Instruct-GGUF, Gemma-2-9b-it-GGUF, dan Mistral-Nemo-Instruct-2407-GGUF. Kenapa tiga model ini? Soalnya, mereka tersedia sebagai open-source dan ukurannya nggak terlalu gede, biar bisa jalan lancar di laptop biasa.

Prompt Engineering: Kunci Komunikasi dengan AI

Buat memastikan semua LLMs ngerti apa yang dimau, dipake prompt standar yang sama. Prompt itu kayak instruksi ke AI, contohnya: “Berdasarkan data PSG ini, tolong berikan diagnosis dan rekomendasi terapi yang sesuai.” Setelah semua LLMs menganalisis 30 pdf, hasil diagnosis dan rekomendasi terapi mereka dibandingkan dengan dokter spesialis tidur. Kalo jawabannya sama, berarti bener. Kalo beda, ya berarti salah. Nggak ada nilai tengah, bener ya bener, salah ya salah.

Karena hasil LLMs nggak sebagus ChatGPT yang web-based, dicoba beberapa strategi optimasi. Pertama, LLMs dikasih definisi tingkat keparahan OSA (ringan, sedang, berat). Kedua, data PSG yang paling penting diekstrak dan disajikan dalam bentuk tabel, biar LLMs fokus ke informasi kunci.

Hasilnya Bikin Kaget: LLM Lokal Belum Bisa Gantikan Dokter

Hasilnya? Lumayan bikin kaget. Tingkat kesesuaian diagnosis OSA antara LLMs lokal dan dokter spesialis tidur nggak terlalu tinggi. Gemma 2 cuma 33%, Mistral Nemo 47%, dan Llama 3 50%. Tapi, soal rekomendasi terapi aPAP (alat bantu napas), hasilnya lumayan: Mistral Nemo 90%, Llama 3 dan Gemma 2 sama-sama 83%. Lucunya, Gemma 2 dan Llama 3 malah merekomendasikan aPAP buat semua pasien, padahal ada satu pasien yang nggak OSA. Ini nunjukkin kalo LLMs lokal masih cenderung over-diagnose.

Soal terapi alternatif, Gemma 2 malah merekomendasikan oral appliance (alat bantu mulut) buat semua pasien. Mistral Nemo juga hampir sama, merekomendasikan oral appliance buat 93% pasien yang direkomendasikan aPAP. Padahal, dokter spesialis tidur cuma merekomendasikan oral appliance buat satu pasien.

Lebih Canggih dari ChatGPT? Jangan Keburu Senang Dulu!

Dibandingin sama ChatGPT-4o yang web-based, performa LLMs lokal ini jauh di bawah. ChatGPT-4o bisa mencapai tingkat kesesuaian 97% buat diagnosis dan 100% buat rekomendasi terapi dalam kasus sederhana. Tapi, perlu diinget, ChatGPT-4o pake data sintetis dan jalan di server eksternal.

Salah satu kendala LLMs lokal adalah keterbatasan komputasi dan kurangnya fine-tuning khusus di bidang kedokteran tidur. Tapi, data penelitian ini nunjukkin kalo LLMs lokal punya kemampuan umum buat menolak pengobatan, meskipun ada kecenderungan buat hedging (menghindari risiko) karena alasan keamanan, terutama soal pertanyaan kesehatan.

Human-in-the-Loop: Kombinasi Terbaik untuk Masa Depan

Meskipun masih banyak kekurangan, LLMs lokal punya potensi besar buat diterapkan di klinik, terutama kalo dikombinasikan dengan keahlian manusia. Dokter bisa mengawasi saran diagnosis dari model, jadi ada lapisan pengawasan kedua yang mengurangi kemungkinan kesalahan diagnosis atau rekomendasi terapi yang nggak tepat. Konsep human-in-the-loop ini udah terbukti meningkatkan keamanan dan kepercayaan pengguna di aplikasi AI kesehatan lainnya.

Selain itu, explainable AI (AI yang bisa menjelaskan cara kerjanya) bisa ningkatin transparansi, jadi dokter bisa ngerti kenapa model memberikan rekomendasi tertentu. Ini penting banget buat membangun kepercayaan dan memastikan keputusan medis yang tepat.

Regulasi AI di Dunia Kesehatan: Jangan Sampai Kebablasan

Dari sudut pandang regulasi, software yang memberikan panduan diagnosis atau terapi masuk dalam kategori regulasi alat medis. Di Uni Eropa, Medical Device Regulation (MDR) mensyaratkan ketentuan ketat soal klasifikasi risiko, evaluasi klinis, dan pengawasan pasca-pemasaran buat teknologi yang memengaruhi manajemen atau hasil pasien.

Di Amerika Serikat, FDA menerapkan kerangka kerja sendiri buat Software as a Medical Device (SaMD), yang mewajibkan pengajuan pra-pemasaran, pemantauan berkelanjutan, dan persyaratan pelabelan kalo software memberikan dukungan keputusan klinis. Selain itu, EU AI Act yang baru disahkan mungkin mengenalkan kewajiban tambahan, terutama karena sistem AI yang dipake di fasilitas kesehatan umumnya dianggap berisiko tinggi.

Batasan Penelitian: Jangan Dianggap Final Answer Dulu

Penelitian ini punya beberapa batasan. Pertama, LLMs lokal yang diuji (Gemma 2, Llama 3, dan Mistral Nemo) kurang dikenal dan dipake dibanding LLMs web-based kayak ChatGPT. Kedua, dataset yang dipilih dan dianalisis relatif kecil, dan ini bisa memengaruhi hasil. Ketiga, diagnosis dan rekomendasi terapi dari LLMs lokal cuma berdasarkan data PSG. Diskusi personal dengan pasien dan pertimbangan evaluasi pengukuran yang disesuaikan dengan pasien cuma bisa dicapai oleh dokter spesialis tidur.

Keempat, data PSG diberikan ke LLMs lokal sebagai pdf yang diedit, termasuk grafik dan tabel. Dalam pdf ini, semua parameter ditampilkan dalam bahasa Jerman. Penggunaan bahasa lain kayak bahasa Inggris bisa memengaruhi hasil.

Kesimpulan: AI Belum Bisa Tidur Nyenyak

Ini adalah studi pertama yang mendemonstrasikan kemampuan umum LLMs lokal buat menginterpretasi data PSG real-world, memberikan diagnosis dan rekomendasi terapi. Meskipun begitu, LLMs lokal masih butuh peningkatan signifikan sebelum bisa diandalkan buat membantu dokter spesialis tidur. Seiring waktu dan kemajuan penelitian, studi di masa depan harus mengevaluasi LLMs lokal yang lebih powerful dalam skala yang lebih besar.

Meskipun infrastruktur teknis buat LLMs lokal udah ada, implementasinya dalam praktik klinis belum bisa direkomendasikan sepenuhnya. Jadi, jangan buru-buru gantiin dokter spesialis tidur dengan AI ya. AI masih perlu banyak belajar, tapi potensinya buat bantu kita tidur lebih nyenyak itu nyata.

Singkatan Penting

  • LLM: Large Language Model
  • PSG: Polysomnography
  • OSA: Obstructive Sleep Apnea
  • PAP: Positive Airway Pressure
  • AASM: American Academy of Sleep Medicine
  • EU: European Union
  • MDR: Medical Device Regulation
  • IMDRF: International Medical Device Regulators Forum
  • FDA: Food and Drug Administration
Add a comment Add a comment

Leave a Reply

Your email address will not be published. Required fields are marked *

Previous Post

<p><strong>Waspada Hujan Lebat, BMKG Prediksi Dampak Signifikan di Sejumlah Wilayah</strong></p>

Next Post

Mantan penyiar radio menggugat Southern Cross Austereo atas lelucon kerajaan tahun 2012 yang berdampak ke Indonesia