Diagnose via kunstmatige intelligentie? Pas op: één op de twee antwoorden is onbetrouwbaar, blijkt uit onderzoek

De chatbots op basis van kunstmatige intelligentie zijn geen bruikbare hulpmiddelen voor het stellen van diagnoses of medisch advies. Een onderzoek onder leiding vanHarbor-UCLA Medisch Centrum (VS) heeft aangetoond dat het gegeven antwoord in één op de twee gevallen volkomen onbetrouwbaar en misleidend is. Aandacht!

Zoals de onderzoekers uitleggen, is de chatbots Op AI gebaseerde technologieën worden snel toegepast op diverse terreinen, waaronder onderzoek, onderwijs, bedrijfsleven, marketing en geneeskunde. De meeste interacties komen echter van niet-deskundige gebruikers die ze als zoekmachines gebruiken, zelfs voor alledaagse vragen over gezondheid en medicijnen.

De zaak ‘Bixonimanie’

Onlangs hebben enkele wetenschappers een ziekte uitgevonden, die ze ‘Bixonimania’ noemden, en hierover ook twee pre-prints gepubliceerd, de eerste op 26 april 2024, de tweede op 6 mei 2024. Hoewel ze vandaag allebei van de server zijn gehaald met de datum 10 april 2026 en in een van de gevallen de formule die over de inhoud spreekt duidelijk verschijnt “verzonnen en niet-authentiek‘ en verstoken van wetenschappelijke geldigheid, in april 2024 Copiloot, Gemini, Perplexity en ChatGPT ze behandelden bixonimanie als een reële aandoening, koppelden het aan het blauwe licht van beeldschermen, beschreven de symptomen en stelden in sommige gevallen zelfs een bezoek aan een specialist voor. Verbijstering het ging zelfs zo ver dat het een geschatte prevalentie gaf, waarbij sprake was van één persoon op de 90.000.

Maar hier houdt het niet op: bixonimanie eindigde ook in een artikel gepubliceerd op Cureuswaarin het werd aangehaald als een opkomende vorm van periorbitale melanose die verband houdt met blauw licht. Tegenwoordig draagt die pagina het teken van intrekking, en Natuur hij reconstrueerde dat de krant het artikel op 30 maart 2026 had ingetrokken nadat er voor commentaar was gecontacteerd. De nep ging dus door meer dan één filter: eerst het web, dan chatbots, daarna een echte wetenschappelijke publicatie.

Hoe het onderzoek is uitgevoerd

De wetenschappers hebben het onderzoek met name uitgevoerd door de reacties van chatbots in de gezondheids- en medische sector te analyseren, sectoren die bijzonder onderhevig zijn aan verkeerde informatie. De gereedschappen die onder de werkzaamheden vallen, zijn inbegrepen Tweeling (Googlen), Diepzoeken (Hoogvlieger), Meta-AI (Half), ChatGPT (OpenAI) En Grok (xAI), en in februari 2025 werden aan elke chatbot tien vragen gesteld in vijf categorieën, namelijk kanker, vaccins, stamcellen, voeding en atletische prestaties.

We gebruikten een vijandige benadering (Tegenstrijdig machinaal leren) met open en gesloten vragen, ontworpen om modellen ertoe aan te zetten onjuiste informatie of gecontra-indiceerd advies te geven – zo schrijven de auteurs – beoordeelden twee experts voor elke categorie de antwoorden als “niet problematisch”, “enigszins problematisch” of “zeer problematisch” met behulp van een coderingsmatrix gebaseerd op objectieve, vooraf gedefinieerde criteria. Citaties werden beoordeeld op juistheid en volledigheid, en aan elk antwoord werd een Flesch-leesbaarheidsscore toegekend (die de complexiteit van een tekst meet op een schaal van 0 tot 100, waarbij hogere waarden duiden op een groter leesgemak, red.)

DE’Tegenstrijdig machinaal leren is een gebied van cyberbeveiliging en AI zelf in het bijzonder gericht op het opzettelijk creëren van gemanipuleerde inputs (vijandige voorbeelden) om AI-modellen te misleiden om fouten te maken door ze te misleiden. Maar het belangrijkste doel is om hun robuustheid te testen. Daarom is er voor gekozen om dit type onderzoek uit te voeren.

De resultaten

Uit de resultaten bleek dat bijna de helft (49,6%) van de antwoorden problematisch was (30% enigszins problematisch en 19,6% zeer problematisch). De kwaliteit van de reacties vertoonde over het algemeen geen significante verschillen tussen chatbots (p=0,566), maar Grok genereerde significant meer problematische reacties dan zou worden verwacht op basis van een willekeurige verdeling (z-score +2,07, p=0,038).

De prestaties waren beter op het gebied van vaccins (gemiddelde z-score -2,57) en kanker (-2,12), en slechter op het gebied van stamcellen (+1,25), atletische prestaties (+3,74) en voeding (+4,35).

Op een totaal van 250 vragen waren er slechts twee weigeringen (0,8%), beide van Meta AI, maar de kwaliteit van de bibliografische bronnen was slecht, met een gemiddelde volledigheidsscore van 40% (Q1-Q3: 20-67%). Dit komt omdat hallucinaties en citaten die door chatbots zijn bedacht, hebben verhinderd dat een chatbot een volledig nauwkeurige lijst met referenties produceerde.

De geanalyseerde chatbots vertoonden slechte prestaties bij het beantwoorden van vragen in de gezondheidszorg en op medische gebieden die vatbaar zijn voor verkeerde informatie. Als de implementatie ervan wordt voortgezet zonder adequate publieke informatie en toezicht, bestaat het risico dat desinformatie wordt versterkt

concluderen de onderzoekers

Bij zeer delicate kwesties zoals medische en gezondheidskwesties moeten we ons altijd tot deskundigen wenden.

Het werk is gepubliceerd op BMJ geopend.