Onderzoekers schakelden de omstreden chatbot in om samenvattingen van hypothetische onderzoeken te schrijven. En dat leverde griezelig goede versies op.
Zou de nieuwe en razend populaire chatbot ChatGPT op overtuigende wijze nep-samenvattingen van niet bestaande wetenschappelijke studies kunnen fabriceren, die wetenschappers doen geloven dat deze onderzoeken echt zijn? Dat was de vraag die onderzoekers in een nieuwe studie wilden beantwoorden. En het misschien wat zorgwekkende antwoord op die vraag is ja; wetenschappers zijn zeker voor de gek te houden.
ChatGPT is een kunstmatige intelligentie-chatbot, ontwikkeld door het AI-bedrijf OpenAI. De chatbot kwam onlangs in opspraak wegens het bijna griezelige vermogen om mensachtige teksten te verzinnen. Stel een vraag en de chatbox genereert een duidelijk antwoord in veel verschillende kennisdomeinen. ChatGPT is zelfs zo gespecialiseerd in taal, dat het hele essays en gedichten kan schrijven, die lastig te onderscheiden zijn van door mensen geschreven teksten.
Onderzoekers pakten enkel de titels van recent gepubliceerde wetenschappelijke studies en lieten vervolgens ChatGPT een passende samenvatting (abstract) genereren. Vervolgens haalden ze de door ChatGPT geschreven samenvatting, samen met de originele, door een plagiaat- en AI-detecor en vroegen reviewers onderscheid te maken tussen de twee. Elke reviewer kreeg 25 gemixte samenvattingen voor zijn neus. Vervolgens moest hij of zij aangeven welke samenvatting de originele was.
Nep-samenvattingen
“De reviewers wisten dat sommige samenvattingen die ze kregen nep waren, dus ze waren erg achterdochtig,” vertelt onderzoeker Catherine Gao. Ondanks dat, wisten zelfs deze sceptische reviewers niet alle nep-samenvattingen te herkennen. In slechts 68 procent van de gevallen wisten ze de door ChatGPT gegenereerde versies eruit te pikken. Bovendien dachten ze ten onrechte dat 14 procent van de echte samenvattingen door AI was geschreven. “Onze reviewers merkten op dat het verrassend moeilijk was om onderscheid te maken tussen de echte en verzonnen samenvattingen,” aldus Gao. “En dit zijn echt vaardige reviewers. Het feit dat ze toch in 32 procent van de gevallen niet de originele samenvatting herkenden, betekent dat de door ChatGPT geschreven exemplaren echt goed zijn. Ik vermoed dat als een nietsvermoedende wetenschapper één van deze gegenereerde samenvattingen onder ogen krijgt, hij niet door zal hebben dat het door AI in elkaar is geknutseld.”
Overtuigend
Eén van de redenen waarom de samenvattingen van ChatGPT zou overtuigend zijn, is omdat het kennis van zaken lijkt te hebben. “ChatGPT weet zelfs hoe groot het patiëntencohort zou moeten zijn als het cijfers bedenkt,” legt Gao uit. “Voor een onderzoek naar een hoge bloeddruk beschreef ChatGPT dat tienduizenden patiënten aan het onderzoek meededen, wat in werkelijkheid ook zeer gebruikelijk is. Aan een onderzoek naar apenpokken deden vervolgens weer veel minder deelnemers mee.”
Zorgelijk
Het gemak waarmee ChatGPT realistische en overtuigende samenvattingen produceert, is best zorgelijk. “Gewetenloos gebruik van de chatbot kan de wetenschap ondermijnen,” zegt Gao. Volgens haar is het niet ondenkbaar dat ChatGPT door zogenaamde ‘paper mills’ (illegale organisaties die met winstoogmerk verzonnen wetenschappelijk werk produceren) wordt gebruikt om overtuigende wetenschappelijke samenvattingen te fabriceren. “Als anderen hun wetenschappelijk onderzoek vervolgens op deze onjuiste studies baseren, kan dat echt gevaarlijk zijn,” klinkt het bezorgd.
AI-detector
Gelukkig bestaan er ook nog AI-detectors. Uit de resultaten blijkt dat de nep-samenvattingen niet door traditionele plagiaatdetectors als zodanig werden herkend. Maar AI-detectors, zoals GPT-2 Output Detector, die online en gratis beschikbaar is, kan wél onderscheid maken tussen echte en verzonnen samenvattingen. “We ontdekten dat deze AI-detector redelijk goed presteerde,” aldus Gao. “We adviseren dan ook om dergelijke AI-detectors vaker in het wetenschappelijke redactieproces te gebruiken als wapen tegen paper mills, die mogelijk proberen puur gegenereerde gegevens in te dienen.”
Ten goede
Ondanks alle zorgen, kan ChatGPT overigens ook ten goede worden gebruikt. “AI-taalmodellen kunnen het schrijfproces helpen automatiseren, wat vaak het knelpunt bij het genereren en verspreiden van kennis is,” licht onderzoeker Yuan Luo toe. “Onze bevindingen tonen aan dat dit waarschijnlijk haalbaar is in de geneeskunde, al moeten we nog wel bepaalde ethische en praktische hiaten overbruggen.” Daarnaast kan ChatGPT de wetenschap verder democratiseren, zo vermoedt onderzoeker Alexander Pearson. “Het kan het bijvoorbeeld makkelijker maken voor niet-Engels sprekende wetenschappers om hun werk te delen met de bredere gemeenschap. Tegelijkertijd is het absoluut noodzakelijk dat we goed nadenken over hoe we dergelijke chatbots het beste kunnen inzetten.”
Het laatste woord over ChatGPT is vast nog niet gezegd. Zo debatteert de wetenschappelijke gemeenschap bijvoorbeeld over in hoeverre het gebruik van dergelijke taalprogramma’s acceptabel is. Waar ligt de grens tussen het gebruik van ChatGPT om je schrijven te verbeteren en het gebruik van de chatbot om een robot het meeste werk te laten doen? “Ik denk dat het belangrijk is dat als mensen ChatGPT gebruiken, ze dit bekend maken,” zegt Gao. “Maar het is een hele interessante kwestie. Ik ben heel benieuwd hoe de discussie over de grenzen van ChatGPT zich verder gaat ontvouwen.”