Analisis – Sepintar-pintarnya AI, tak akan bisa jadi dokter kompeten

24 April 2026

Seorang pria mengamati robot humanoid di area pameran Dassault Systemes dalam ajang Hannover Messe 2026 di Hannover, Jerman, pada 21 April 2026. Hannover Messe 2026, pameran dagang industri terkemuka Jerman, dibuka pada Senin (20/4) dengan kecerdasan buatan (artificial intelligence/AI) industri dan robot humanoid menjadi sorotan utama untuk pertama kalinya. (Xinhua/Zhang Haofu)

Faktor manusia masih sangat penting dan AI harus diterapkan di bawah bimbingan dokter yang memiliki keahlian untuk memahami teknologi dan menggunakannya dengan benar.

Berlin, Jerman (Xinhua/Indonesia Window) – Apakah sakit kepala merupakan tanda peringatan stroke? Apakah batuk perlu diperiksa dengan rontgen? Dan apa sebenarnya arti dari hasil tes yang tidak normal?

Dengan hanya beberapa ketukan untuk menjelaskan gejala dan mengunggah laporan medis, seseorang dapat memperoleh penilaian yang rapi dan tampak profesional dari kecerdasan buatan (artificial intelligence/AI) dalam hitungan detik. Semakin banyak orang kini mulai beralih ke AI untuk mendapatkan saran medis sebelum menemui dokter.

Namun, apakah itu berarti AI benar-benar dapat mendiagnosis dan merawat pasien?

Sebuah studi yang dipublikasikan pada awal April 2026 oleh sejumlah peneliti dari Universitas Marburg dan Rumah Sakit Universitas Giessen dan Marburg (University Hospital Giessen and Marburg/UKGM) Jerman menemukan bahwa dalam tes pengetahuan terstandardisasi mengenai cedera ginjal akut (acute kidney injury/AKI), sejumlah model bahasa besar (large language model/LLM) mampu mengungguli profesional medis yang ikut serta dalam penilaian tersebut.

Para peneliti membandingkan 13 LLM yang tersedia untuk publik dengan 123 peserta sukarelawan dalam Kongres Tahunan ke-131 Perhimpunan Dokter Penyakit Dalam Jerman, yang mencakup mahasiswa kedokteran dan dokter spesialis penyakit dalam. Kedua kelompok menjalani penilaian pengetahuan yang sama mengenai AKI, yang terdiri dari dua soal skenario kasus dan 15 pertanyaan pilihan ganda dengan satu jawaban terbaik.

LLM tersebut mencatat skor rata-rata 13,5 dari 15, atau sekitar 90 persen, dengan beberapa model meraih nilai sempurna, sementara peserta manusia hanya membukukan rata-rata 7,3 dari 15, atau 48,7 persen. Model-model tersebut juga menyelesaikan tes jauh lebih cepat.

"Temuan ini menunjukkan bahwa LLM dapat memberikan pengetahuan medis faktual dengan sangat cepat. Hal ini membuka peluang bagi praktik klinis sehari-hari," ujar Philipp Russ, penulis korespondensi studi tersebut.

Titik lemah dalam penalaran klinis

Namun, skor tinggi dalam ujian terstandardisasi tidak serta-merta berarti AI memiliki kemampuan penilaian yang dibutuhkan untuk perawatan klinis di dunia nyata.

Sebuah studi yang diterbitkan di JAMA Network Open pada 13 April menemukan bahwa LLM masih kurang dalam penalaran klinis, terutama pada tahap awal suatu kasus, ketika informasi yang terbatas sering kali menghambat mereka untuk menghasilkan diagnosis diferensial yang tepat.

Untuk lebih mencerminkan bagaimana diagnosis berlangsung dalam praktik, para peneliti di Mass General Brigham dan institusi lain mengevaluasi 21 LLM mutakhir menggunakan 29 skenario klinis standar. Model-model tersebut diberi informasi langkah demi langkah, dimulai dengan detail dasar seperti usia, jenis kelamin, dan gejala pasien, dan diikuti oleh temuan pemeriksaan fisik dan hasil laboratorium. Kinerja mereka pada setiap tahap dinilai oleh evaluator mahasiswa kedokteran.

Hasilnya menunjukkan bahwa seluruh model tersebut gagal menghasilkan diagnosis diferensial yang tepat dalam lebih dari 80 persen kasus. Artinya, model-model tersebut kerap tidak dapat secara andal menentukan penyebab yang paling mungkin, menyingkirkan kemungkinan penyakit serius, atau memberikan arahan yang tepat mengenai pemeriksaan yang perlu dilakukan selanjutnya.

"Diagnosis diferensial merupakan inti dari penalaran klinis dan menjadi dasar dari 'seni kedokteran' yang saat ini belum dapat direplikasi oleh AI," ujar Marc Succi, penulis korespondensi studi tersebut, seraya menambahkan bahwa potensi AI dalam praktik klinis tetap terletak pada kemampuannya untuk melengkapi, bukan menggantikan, penalaran dokter.

Kolaborasi yang dipimpin dokter

Jika AI belum siap untuk melakukan praktik kedokteran secara mandiri, peran apa yang seharusnya dimainkannya dalam perawatan kesehatan?

Jens Kleesiek, direktur Institut Kecerdasan Buatan dalam Kedokteran di Rumah Sakit Universitas Essen dan Universitas Duisburg-Essen, mengatakan bahwa berkat AI, kolaborasi antara dokter dan komputer terus mengalami peningkatan.

"Kita kini berada pada titik di mana sistem digital tidak lagi sekadar memberikan dukungan, tetapi juga secara aktif terlibat dalam proses. Misalnya, dengan mengambil alih dokumentasi atau mengoordinasikan prosedur," ujar Kleesiek saat pembukaan Kongres Tahunan Perhimpunan Dokter Penyakit Dalam Jerman 2026 pada 18 April. "Hal ini akan mengubah layanan medis secara mendasar."

Meskipun demikian, tanggung jawab utama dokter tetap tidak berubah. Kleesiek menekankan bahwa faktor manusia masih sangat penting dan AI harus diterapkan di bawah bimbingan dokter yang memiliki keahlian untuk memahami teknologi dan menggunakannya dengan benar.

Marc Succi menyampaikan poin serupa, mengatakan bahwa "LLM di bidang perawatan kesehatan tetap membutuhkan 'keterlibatan manusia' dan pengawasan yang sangat ketat."

Seiring dengan semakin luasnya penerapan AI dalam praktik klinis, risiko yang menyertainya juga memerlukan perhatian serius. Fares Alahdab, profesor madya di Fakultas Kedokteran Universitas Missouri, memperingatkan bahwa klinisi berpengalaman umumnya lebih mampu mengenali saran keliru yang dihasilkan AI, sementara mahasiswa kedokteran mungkin belum memiliki penilaian yang memadai untuk mendeteksi kesalahan samar yang berpotensi berbahaya.

"Risiko yang lebih berbahaya dan tidak disadari adalah terjadinya alih daya penalaran, sebuah proses yang cenderung berlangsung secara bertahap dan hampir tak terasa," ujarnya. Model AI menghasilkan respons yang lancar dan rapi, sehingga dapat membuat pengguna meninggalkan pencarian informasi secara mandiri, penilaian kritis, dan sintesis pengetahuan, imbuhnya. Seiring waktu, hal ini berpotensi mengikis keterampilan yang seharusnya terus diasah.

Laporan: Redaksi

#artificialintelligence #teknologikecerdasanbuatan #modelbahasabesar #kedokteranIslam #robothumanoid #teknologirobot