ChatGPT doet het als dokter... mmm.. best wel goed
- Chatbot stelt in 70% van de gevallen de juiste diagnose.
- Juist in het lastigste beslistraject, scoort ChatGPT het minst goed
- Chatbot kan in potentie goed helpen in de ondersteuning van klinische praktijk
- Lees ook: Deze AI-toepassingen zagen we al in de zorg
ChatGPT presteert op het niveau van iemand die net de basis medische studie heeft afgerond, blijkt uit wetenschappelijk onderzoek naar de mogelijkheden om kunstmatige intelligentie in te zetten in het zorgproces, van eerstelijnszorg en spoedeisende hulp.
De inzet van kunstmatige intelligentie is een populair onderwerp voor onderzoek. Maar niet eerder werd gekeken of een chatbot ook in staat is de eerste diagnose te stellen in alle medische specialismen en op basis daarvan een behandelplan op te stellen.
De bevinding dat een Large Language Model (LLM) presteert als een basisarts geeft aan dat het in potentie een hulpmiddel kan zijn voor de dokterspraktijk en met een indrukwekkende nauwkeurigheid een beslissingsondersteuning kan bieden bij klinische besluitvorming, zegt Marc Succi. Hij is hoofdonderzoeker aan het Mass General Brigham-onderzoeksinstituut en mede-auteur van een het artikel 'Assessing the Utility of ChatGPT Throughout the Entire Clinical Workflow: Development and Usability Study' in het Journal of Medical Internet Research.
Goed, maar zeker niet perfect
Uit het onderzoek bleek dat de chatbot in 72% van de gevallen het bij het juiste eind had. In het stellen van de einddiagnose presteerde ChatGPT het best met 77%. Het slechtst was het LLM bij het stellen van een diagnose op basis van symptomen die op twee verschillende aandoeningen kunnen duiden. Daar had ChatGPT het in 60% van de gevallen goed.
Dat is wel een probleem want "deze zogeheten differential diagnosis is de basis van de zorgverlening, waar de arts moet uitvogelen wat te doen", volgens Succi. "Dat geeft aan waar artsen de echte experts zijn en de meeste toegevoegde waarde bieden: in de eerste fasen van patiëntenzorg met weinig beschikbare informatie en een lijst met mogelijke diagnosen."
Succi benadrukt dat voordat hulpmiddelen zoals ChatGPT echt in de medische praktijk kunnen worden ingezet er meer benchmarkonderzoek nodig is, maar ook regelgeving. Co-auteur Adam Landman zegt dat Mass General Brigham veel potentie ziet in LLM om de zorgverlening te verbeteren. "We kijken op dit moment naar LLM-toepassingen om te assisteren bij het opstellen van klinische documentatie en concept-antwoorden naar patiënten toe. Er is nog grondig onderzoek nodig voordat LLM-tools geïntegreerd kunnen worden in klinische zorg."
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonneeEr zijn andere Large Language Models (LLMs) die worden gebruikt in de geneeskunde. Een voorbeeld hiervan is Med-PaLM, een model dat is ontwikkeld door Singhal, Azizi et al. en dat is ontworpen om hoogwaardige antwoorden te geven op medische vragen [1]. Med-PaLM presteert beter dan eerdere modellen, maar blijft nog steeds inferieur aan clinici [2]. LLMs worden op verschillende manieren gebruikt in de gezondheidszorg, zoals het helpen van artsen en andere zorgprofessionals bij het stellen van diagnoses [3]. Er is veel potentieel voor het gebruik van LLMs in de gezondheidszorg om de kwaliteit van zorg en patiëntervaring te verbeteren.
Med-PaLM 2 is een medisch groot taalmodel (LLM) dat gebruik maakt van de kracht van LLM’s, afgestemd op het medische domein om medische vragen nauwkeuriger en veiliger te beantwoorden [4]. Med-PaLM 2 was het eerste LLM dat presteerde op een “expert” testnemerniveau op de MedQA-dataset van USMLE-stijl vragen, met een nauwkeurigheid van meer dan 85%, en het was het eerste AI-systeem dat een voldoende score behaalde op de MedMCQA-dataset bestaande uit Indiase AIIMS- en NEET-medische examenvragen, met een score van 72,3% [4]. Er zijn andere LLM’s die worden gebruikt in de geneeskunde, zoals Flan-PaLM, dat met een combinatie van promptingstrategieën de SOTA-prestaties op MedQA (USMLE), MedMCQA, PubMedQA en MMLU-klinische onderwerpen overtrof. In het bijzonder verbeterde het de vorige SOTA op MedQA (USMLE) met meer dan 17% [5]
Referenties
[1] https://arxiv.org/abs/2212.13138
[2] https://www.nature.com/articles/d41591-023-00064-0
[3] https://medium.com/@BuildGP/the-potential-of-large-language-models-in-healthcare-improving-quality-of-care-and-patient-6e8b6262d5ca
[4] https://cloud.google.com/blog/topics/healthcare-life-sciences/sharing-google-med-palm-2-medical-large-language-model
[5] https://arxiv.org/pdf/2212.13138.pdf