Hoewel AI-chatbots kunnen bijdragen aan betere toegankelijkheid van medische informatie, zijn ze op dit moment nog niet betrouwbaar genoeg voor het geven van nauwkeurige en veilige adviezen.
Door de komst van het internet is het vrij eenvoudig geworden om een kwaaltje eerst even te googlen voordat je naar de dokter stapt. En dat doen we dan ook massaal. Bovendien maakt de komst van AI het nu nog eenvoudiger om je vraag rechtstreeks aan een chatbot te stellen. Toch is hierbij voorzichtigheid geboden, zo waarschuwen onderzoekers in een nieuwe studie. Want hoewel chatbots gebruikmaken van grote datasets van het internet om over allerlei onderwerpen te converseren, inclusief gezondheidsvragen, zijn ze ook in staat om desinformatie en onzinnige of zelfs schadelijke inhoud te produceren.
Online zoeken naar gezondheidsinformatie
Het internet is 24/7 beschikbaar. Het betekent dat mensen op elk moment informatie kunnen opzoeken zonder te hoeven wachten op een afspraak bij een zorgverlener. Mensen gebruiken het internet bovendien ook vaak als een eerste stap om te bepalen of ze verder medische hulp nodig hebben. Kortom, we vragen het internet geregeld om medisch advies.
“Ongeveer 50 procent van de mensen in de EU zoekt online naar gezondheidsinformatie, waaronder details over hun medicatie”, vertelt onderzoeker Wahram Andrikyan in een interview met Scientias.nl. “Dit geldt mogelijk vooral voor mensen in situaties met beperkte middelen. Nu AI-gestuurde chatbots steeds vaker in zoekmachines worden opgenomen, zullen ze waarschijnlijk de belangrijkste bron worden voor het vinden van medicatie-informatie op internet.”
AI-chatbots
In februari 2023 vonden er grote veranderingen plaats in zoekmachines door de introductie van AI-chatbots, die de mogelijkheid bieden van betere zoekresultaten, uitgebreide antwoorden en een nieuwe, interactieve ervaring. Toch waarschuwt Andrikyan nu dat we nog niet blind op de antwoorden kunnen vertrouwen. In zijn onderzoek keek hij samen met zijn collega’s naar de leesbaarheid, volledigheid en nauwkeurigheid van de antwoorden van Bing Copilot – een zoekmachine met AI-chatbot-functies – op vragen over de 50 meest voorgeschreven medicijnen in de Verenigde Staten in 2020. Aan de chatbot werden voor elk van de 50 medicijnen tien vragen gesteld, wat resulteerde in een totaal van 500 antwoorden. De vragen gingen onder andere over het gebruik van het medicijn, de werking ervan, de gebruiksinstructies en veelvoorkomende bijwerkingen.
Flesch Reading Ease Score
De leesbaarheid van de antwoorden van de chatbot werd bepaald met de Flesch Reading Ease Score, die aangeeft welk opleidingsniveau nodig is om een tekst te begrijpen. Een score tussen 0 en 30 betekent dat de tekst erg moeilijk te lezen is en dat je een universitaire opleiding nodig hebt om het te begrijpen. Aan de andere kant betekent een score van 91 tot 100 dat de tekst heel makkelijk te lezen is, zelfs voor elfjarigen. De gemiddelde Flesch Reading Ease Score van de chatbot lag iets boven de 37, wat aangeeft dat een academische opleiding nodig is om de teksten te begrijpen. Zelfs de meest begrijpelijke antwoorden van de chatbot vereisten nog een middelbare schoolopleiding.
Volledig- en nauwkeurigheid
De volledig- en nauwkeurigheid van de verstrekte antwoorden vielen Andrikyan niet eens echt tegen. “Over het algemeen viel op dat de chatbot vaak volledige en nauwkeurige antwoorden gaf op de vragen”, merkt Andrikyan op. De chatbot gaf in sommige gevallen zelfs 100 procent volledige antwoorden. Gemiddeld genomen was de volledigheid van zijn antwoorden 77 procent. Vijf van de tien vragen werden volledig beantwoord, terwijl vraag 3 (waar moet ik op letten bij het innemen van het medicijn?) het laagste gemiddelde had, met slechts 23 procent volledigheid. De chatbot heeft dus ook nog zo zijn tekortkomingen. De antwoorden van de chatbot kwamen in 126 van de 484 gevallen (26 procent) niet overeen met de referentiegegevens, en in 16 van de 484 gevallen (iets meer dan 3 procent) waren ze volledig inconsistent. “We zagen dat open vragen over gebruiksinstructies vaak niet volledig waren, terwijl vragen over het gebruik bij nierfalen minder nauwkeurig waren”, vertelt Andrikyan. “Dit kan komen doordat de chatbot soms moeite heeft om de onderliggende intentie van een vraag van de patiënt te doorgronden, of omdat het verouderde informatie gebruikt die online beschikbaar is.”
Schade
Zeven experts op het gebied van medicatieveiligheid hebben de huidige wetenschappelijke consensus en de kans op mogelijke schade beoordeeld die kan voortkomen uit het opvolgen van de aanbevelingen van een chatbot. Voor deze beoordeling maakten ze gebruik van een selectie van twintig chatbot-antwoorden die niet nauwkeurig of compleet waren, of die een potentieel risico voor de veiligheid van de patiënt vormden.
De cijfers
Bij de evaluatie van deze twintig antwoorden kwam naar voren dat slechts 54 procent in overeenstemming was met de wetenschappelijke consensus. Van de resterende antwoorden was 39 procent niet in lijn met de gevestigde consensus, terwijl er voor 6 procent geen duidelijke wetenschappelijke overeenstemming bestond. Wat betreft de kans op schade door het volgen van de chatbot-aanbevelingen, werd in 3 procent van de gevallen de schade als zeer waarschijnlijk beoordeeld, terwijl in 29 procent de kans op schade als gemiddeld waarschijnlijk werd ingeschat. Ongeveer een derde (34 procent) van de antwoorden werd echter als onwaarschijnlijk of helemaal niet waarschijnlijk beschouwd om schade te veroorzaken. Ongeacht de kans op risico’s, werd 42 procent van de chatbot-antwoorden als matig of licht schadelijk beoordeeld. Bovendien werd 22 procent ingeschat als mogelijk dodelijk of zeer schadelijk. Ongeveer een derde (36 procent) van de antwoorden werd als onschadelijk gezien.
Voorzichtigheid
Al met al wijzen deze resultaten erop dat we nog niet volledig kunnen vertrouwen op chatbots voor veilige medicatie-informatie. “Gezien het grote aantal vragen dat patiënten dagelijks over hun medicatie stellen, kan zelfs een kleine kans op een onjuist en potentieel schadelijk antwoord van de chatbot leiden tot ernstige gevolgen in een enkel geval”, stelt Andrikyan. “We raden zowel patiënten als zorgverleners aan om voorzichtig te zijn met het gebruik van AI-gestuurde zoekmachines of het aanbevelen daarvan aan patiënten, totdat de huidige problemen zijn opgelost. Daarnaast moet er een duidelijke disclaimer worden weergegeven die aangeeft dat de informatie van de chatbot niet bedoeld is als vervanging voor professioneel advies.”
Chatbot-dokter
Ondanks de obstakels gelooft Andrikyan dat de ‘chatbot-dokter’ ook nuttig kan zijn. “AI-gestuurde chatbots kunnen patiënten helpen door informatie makkelijker toegankelijk te maken”, verklaart hij. “Omdat niet altijd specifieke vragen van patiënten direct worden beantwoord in gezondheidsinformatie, zijn ze vaak zelf op zoek naar antwoorden. Patiënten met beperkte toegang tot zorgverleners kunnen daar vooral voordeel uit halen. Bovendien kunnen zoekmachines hen helpen om sneller de juiste medicatie-informatie te vinden.”
Hoewel chatbots dus veel mogelijkheden bieden, benadrukt de onderzoeker dat patiënten hun zorgverlener moeten blijven raadplegen, aangezien chatbots in ieder geval nu nog niet altijd foutloze informatie genereren. “Het is belangrijk om voorzichtig te zijn met zelfs de meest geavanceerde AI-gestuurde zoekmachines totdat chatbots betrouwbaarder zijn geworden”, besluit Andrikyan.