spanduk halaman

berita

Model Bahasa Besar (LLM) dapat menulis artikel persuasif berdasarkan kata-kata yang tepat, lulus ujian kecakapan profesional, dan menulis informasi yang ramah dan empati terhadap pasien. Namun, selain risiko fiksi, kerapuhan, dan fakta yang tidak akurat dalam LLM, isu-isu lain yang belum terselesaikan secara bertahap menjadi fokus, seperti model AI yang mengandung "nilai-nilai kemanusiaan" yang berpotensi diskriminatif dalam pembuatan dan penggunaannya. Meskipun LLM tidak lagi memalsukan konten dan menghilangkan hasil keluaran yang jelas-jelas merugikan, "nilai-nilai LLM" mungkin masih menyimpang dari nilai-nilai kemanusiaan.

 

Banyak sekali contoh yang menggambarkan bagaimana data yang digunakan untuk melatih model AI mengkodekan nilai-nilai individual dan sosial, yang dapat menguat di dalam model. Contoh-contoh ini melibatkan berbagai aplikasi, termasuk interpretasi otomatis rontgen dada, klasifikasi penyakit kulit, dan pengambilan keputusan algoritmik terkait alokasi sumber daya medis. Sebagaimana dinyatakan dalam artikel terbaru di jurnal kami, data pelatihan yang bias dapat memperkuat dan mengungkap nilai-nilai dan bias yang ada di masyarakat. Sebaliknya, penelitian juga menunjukkan bahwa AI dapat digunakan untuk mengurangi bias. Sebagai contoh, para peneliti menerapkan model pembelajaran mendalam pada film rontgen lutut dan menemukan faktor-faktor yang terlewatkan oleh indikator keparahan standar (yang dinilai oleh ahli radiologi) di dalam sendi lutut, sehingga mengurangi perbedaan nyeri yang tidak dapat dijelaskan antara pasien kulit hitam dan kulit putih.

Meskipun semakin banyak orang menyadari bias dalam model AI, terutama dalam hal data pelatihan, banyak titik masuk lain yang berkaitan dengan nilai-nilai kemanusiaan tidak mendapat perhatian yang cukup dalam proses pengembangan dan penerapan model AI. AI medis baru-baru ini mencapai hasil yang mengesankan, tetapi sebagian besar belum secara eksplisit mempertimbangkan nilai-nilai kemanusiaan dan interaksinya dengan penilaian risiko dan penalaran probabilistik, dan belum dimodelkan.

 

Untuk mengkonkretkan konsep-konsep abstrak ini, bayangkan Anda seorang ahli endokrinologi yang diharuskan meresepkan hormon pertumbuhan manusia rekombinan untuk seorang anak laki-laki berusia 8 tahun yang usianya di bawah persentil ke-3. Kadar hormon pertumbuhan manusia terstimulasi anak tersebut di bawah 2 ng/mL (nilai referensi, >10 ng/mL, nilai referensi untuk banyak negara di luar Amerika Serikat adalah >7 ng/mL), dan gen pengkode hormon pertumbuhan manusianya telah mendeteksi mutasi inaktivasi yang langka. Kami yakin bahwa penerapan terapi hormon pertumbuhan manusia sudah jelas dan tak terbantahkan dalam pengaturan klinis ini.

Penerapan terapi hormon pertumbuhan manusia dalam skenario berikut dapat menimbulkan kontroversi: tinggi badan anak laki-laki berusia 14 tahun selalu berada di persentil ke-10 dari teman-temannya, dan puncak hormon pertumbuhan manusia setelah stimulasi adalah 8 ng/mL. Tidak ada mutasi fungsional yang diketahui yang dapat memengaruhi tinggi badan, maupun penyebab lain perawakan pendek, dan usia tulangnya adalah 15 tahun (yaitu tidak ada keterlambatan perkembangan). Hanya sebagian dari kontroversi ini yang disebabkan oleh perbedaan nilai ambang batas yang ditentukan oleh para ahli berdasarkan lusinan studi mengenai kadar hormon pertumbuhan manusia yang digunakan untuk mendiagnosis defisiensi hormon pertumbuhan terisolasi. Setidaknya, kontroversi yang sama besarnya muncul dari keseimbangan risiko-manfaat penggunaan terapi hormon pertumbuhan manusia dari perspektif pasien, orang tua pasien, tenaga kesehatan profesional, perusahaan farmasi, dan pembayar. Ahli endokrinologi anak mungkin mempertimbangkan efek samping yang jarang terjadi dari suntikan hormon pertumbuhan harian selama 2 tahun dengan probabilitas tidak ada atau hanya sedikit pertumbuhan pada ukuran tubuh orang dewasa dibandingkan dengan saat ini. Anak laki-laki mungkin percaya bahwa meskipun tinggi badan mereka hanya bertambah 2 cm, menyuntikkan hormon pertumbuhan adalah tindakan yang baik, tetapi pihak pembayar dan perusahaan farmasi mungkin memiliki pandangan yang berbeda.

 

Kami mengambil eGFR berbasis kreatinin sebagai contoh, yang merupakan indikator fungsi ginjal yang banyak digunakan untuk mendiagnosis dan menentukan stadium penyakit ginjal kronis, menetapkan kondisi transplantasi atau donasi ginjal, serta menentukan kriteria reduksi dan kontraindikasi untuk banyak obat resep. EGFR adalah persamaan regresi sederhana yang digunakan untuk memperkirakan laju filtrasi glomerulus terukur (mGFR), yang merupakan standar referensi, tetapi metode evaluasinya relatif rumit. Persamaan regresi ini tidak dapat dianggap sebagai model AI, tetapi menggambarkan banyak prinsip tentang nilai-nilai kemanusiaan dan penalaran probabilistik.

Titik masuk pertama bagi nilai manusia untuk memasuki eGFR adalah ketika memilih data untuk persamaan yang sesuai. Antrean awal yang digunakan untuk merancang rumus eGFR sebagian besar terdiri dari partisipan kulit hitam dan putih, dan penerapannya pada banyak kelompok etnis lain masih belum jelas. Titik masuk selanjutnya bagi nilai manusia ke dalam rumus ini meliputi: memilih akurasi mGFR sebagai tujuan utama untuk mengevaluasi fungsi ginjal, tingkat akurasi yang dapat diterima, cara mengukur akurasi, dan menggunakan eGFR sebagai ambang batas untuk memicu pengambilan keputusan klinis (seperti menentukan kondisi untuk transplantasi ginjal atau meresepkan obat). Terakhir, ketika memilih konten model masukan, nilai manusia juga akan memasuki rumus ini.

Misalnya, sebelum 2021, pedoman menyarankan penyesuaian kadar kreatinin dalam formula eGFR berdasarkan usia, jenis kelamin, dan ras pasien (hanya diklasifikasikan sebagai individu kulit hitam atau non-kulit hitam). Penyesuaian berdasarkan ras ditujukan untuk meningkatkan akurasi formula mGFR, tetapi pada tahun 2020, rumah sakit besar mulai mempertanyakan penggunaan eGFR berbasis ras, dengan alasan seperti menunda kelayakan pasien untuk transplantasi dan mengkonkretkan ras sebagai konsep biologis. Penelitian telah menunjukkan bahwa merancang model eGFR dalam hal ras dapat memiliki dampak yang mendalam dan beragam pada akurasi dan hasil klinis; Oleh karena itu, secara selektif berfokus pada akurasi atau berfokus pada sebagian hasil mencerminkan penilaian nilai dan dapat menutupi pengambilan keputusan yang transparan. Akhirnya, kelompok kerja nasional mengusulkan formula baru yang disesuaikan tanpa mempertimbangkan ras untuk menyeimbangkan masalah kinerja dan keadilan. Contoh ini menggambarkan bahwa bahkan formula klinis yang sederhana memiliki banyak titik masuk ke nilai-nilai kemanusiaan.

Dokter dengan realitas virtual di ruang operasi di rumah sakit. Ahli bedah menganalisis hasil pengujian jantung pasien dan anatomi manusia pada antarmuka virtual futuristik digital teknologi, holografik digital, inovatif dalam konsep sains dan kedokteran.

Dibandingkan dengan formula klinis dengan hanya sejumlah kecil indikator prediktif, LLM dapat terdiri dari miliaran hingga ratusan miliar parameter (bobot model) atau lebih, sehingga sulit untuk dipahami. Alasan mengapa kami mengatakan "sulit untuk dipahami" adalah bahwa di sebagian besar LLM, cara yang tepat untuk memperoleh respons melalui pertanyaan tidak dapat dipetakan. Jumlah parameter untuk GPT-4 belum diumumkan; Pendahulunya GPT-3 memiliki 175 miliar parameter. Lebih banyak parameter tidak selalu berarti kemampuan yang lebih kuat, karena model yang lebih kecil yang mencakup lebih banyak siklus komputasi (seperti seri model LLaMA [Large Language Model Meta AI]) atau model yang disetel dengan baik berdasarkan umpan balik manusia akan berkinerja lebih baik daripada model yang lebih besar. Misalnya, menurut penilai manusia, model InstrumentGPT (model dengan 1,3 miliar parameter) mengungguli GPT-3 dalam mengoptimalkan hasil keluaran model.

Detail pelatihan spesifik GPT-4 belum diungkapkan, tetapi detail model generasi sebelumnya termasuk GPT-3, InstrumentGPT, dan banyak LLM sumber terbuka lainnya telah diungkapkan. Saat ini, banyak model AI dilengkapi dengan kartu model; data evaluasi dan keamanan GPT-4 telah dipublikasikan dalam kartu sistem serupa yang disediakan oleh perusahaan pembuat model OpenAI. Pembuatan LLM secara garis besar dapat dibagi menjadi dua tahap: tahap pra-pelatihan awal dan tahap penyempurnaan yang bertujuan untuk mengoptimalkan hasil keluaran model. Pada tahap pra-pelatihan, model diberikan korpus besar yang mencakup teks internet asli untuk melatihnya memprediksi kata berikutnya. Proses "penyelesaian otomatis" yang tampaknya sederhana ini menghasilkan model dasar yang kuat, tetapi juga dapat menyebabkan perilaku yang merugikan. Nilai-nilai kemanusiaan akan memasuki tahap pra-pelatihan, termasuk memilih data pra-pelatihan untuk GPT-4 dan memutuskan untuk menghapus konten yang tidak pantas seperti konten pornografi dari data pra-pelatihan. Terlepas dari upaya-upaya ini, model dasar mungkin masih belum berguna maupun tidak mampu memuat hasil keluaran yang merugikan. Pada tahap penyempurnaan berikutnya, banyak perilaku yang berguna dan tidak berbahaya akan muncul.

Pada tahap penyempurnaan, perilaku model bahasa sering kali diubah secara mendalam melalui penyempurnaan terawasi dan pembelajaran penguatan berdasarkan umpan balik manusia. Pada tahap penyempurnaan terawasi, personel kontraktor yang direkrut akan menulis contoh respons untuk kata-kata prompt dan langsung melatih model. Pada tahap pembelajaran penguatan berdasarkan umpan balik manusia, evaluator manusia akan mengurutkan hasil keluaran model sebagai contoh konten masukan. Kemudian menerapkan hasil perbandingan di atas untuk mempelajari "model penghargaan" dan lebih lanjut meningkatkan model melalui pembelajaran penguatan. Keterlibatan manusia tingkat rendah yang luar biasa dapat menyempurnakan model-model besar ini. Misalnya, model InstrumentGPT menggunakan tim yang terdiri dari sekitar 40 personel kontraktor yang direkrut dari situs web crowdsourcing dan lulus uji penyaringan yang bertujuan untuk memilih sekelompok anotator yang peka terhadap preferensi berbagai kelompok populasi.

Seperti yang ditunjukkan oleh dua contoh ekstrem ini, yaitu rumus klinis sederhana [eGFR] dan LLM yang kuat [GPT-4], pengambilan keputusan dan nilai-nilai kemanusiaan memainkan peran penting dalam membentuk luaran model. Dapatkah model-model AI ini menangkap beragam nilai yang dimiliki pasien dan dokter? Bagaimana cara memandu penerapan AI dalam dunia kedokteran secara publik? Sebagaimana disebutkan di bawah, peninjauan ulang terhadap analisis keputusan medis dapat memberikan solusi yang berprinsip untuk permasalahan ini.

 

Analisis keputusan medis tidak familiar bagi banyak klinisi, tetapi dapat membedakan antara penalaran probabilistik (untuk hasil yang tidak pasti terkait dengan pengambilan keputusan, seperti apakah akan memberikan hormon pertumbuhan manusia dalam skenario klinis kontroversial yang ditunjukkan pada Gambar 1) dan faktor pertimbangan (untuk nilai subjektif yang melekat pada hasil ini, yang nilainya dikuantifikasi sebagai "utilitas", seperti nilai peningkatan tinggi badan pria sebesar 2 cm), yang menyediakan solusi sistematis untuk keputusan medis yang kompleks. Dalam analisis keputusan, klinisi harus terlebih dahulu menentukan semua kemungkinan keputusan dan probabilitas yang terkait dengan setiap hasil, dan kemudian menggabungkan utilitas pasien (atau pihak lain) yang terkait dengan setiap hasil untuk memilih opsi yang paling tepat. Oleh karena itu, validitas analisis keputusan bergantung pada apakah pengaturan hasil komprehensif, serta apakah pengukuran utilitas dan estimasi probabilitas akurat. Idealnya, pendekatan ini membantu memastikan bahwa keputusan berbasis bukti dan selaras dengan preferensi pasien, sehingga mempersempit kesenjangan antara data objektif dan nilai-nilai pribadi. Metode ini diperkenalkan ke bidang medis beberapa dekade lalu dan diterapkan pada pengambilan keputusan pasien individu dan penilaian kesehatan populasi, seperti memberikan rekomendasi untuk skrining kanker kolorektal kepada masyarakat umum.

 

Dalam analisis keputusan medis, berbagai metode telah dikembangkan untuk mendapatkan utilitas. Sebagian besar metode tradisional secara langsung mendapatkan nilai dari masing-masing pasien. Metode paling sederhana adalah menggunakan skala penilaian, di mana pasien menilai tingkat preferensi mereka terhadap hasil tertentu pada skala digital (seperti skala linier dengan rentang 1 hingga 10), dengan hasil kesehatan yang paling ekstrem (seperti kesehatan total dan kematian) ditempatkan di kedua ujungnya. Metode pertukaran waktu adalah metode lain yang umum digunakan. Dalam metode ini, pasien perlu membuat keputusan tentang berapa banyak waktu sehat yang bersedia mereka habiskan untuk ditukar dengan periode kesehatan yang buruk. Metode perjudian standar adalah metode lain yang umum digunakan untuk menentukan utilitas. Dalam metode ini, pasien ditanya mana dari dua pilihan yang mereka sukai: hidup selama beberapa tahun dengan kesehatan normal dengan probabilitas (p) (t) tertentu, dan menanggung risiko kematian dengan probabilitas 1-p; atau memastikan untuk hidup selama t tahun dalam kondisi kesehatan yang berbeda. Tanyakan kepada pasien beberapa kali dengan nilai-p yang berbeda hingga mereka tidak menunjukkan preferensi untuk pilihan apa pun, sehingga utilitas dapat dihitung berdasarkan respons pasien.
Selain metode yang digunakan untuk menggali preferensi individu pasien, metode juga telah dikembangkan untuk mendapatkan manfaat bagi populasi pasien. Diskusi kelompok terarah (menyatukan pasien untuk membahas pengalaman spesifik) khususnya dapat membantu memahami perspektif mereka. Untuk mengagregasi manfaat kelompok secara efektif, berbagai teknik diskusi kelompok terstruktur telah diusulkan.
Dalam praktiknya, pengenalan langsung utilitas dalam proses diagnosis dan perawatan klinis sangat memakan waktu. Sebagai solusinya, kuesioner survei biasanya didistribusikan kepada populasi yang dipilih secara acak untuk mendapatkan skor utilitas pada tingkat populasi. Beberapa contohnya antara lain kuesioner EuroQol 5 dimensi, formulir singkat bobot utilitas 6 dimensi, Indeks Utilitas Kesehatan, dan Kuesioner Kualitas Hidup Inti 30 dari European Cancer Research and Treatment Organization.


Waktu posting: 01-Jun-2024