We kunnen gesprekken met AI niet langer onderscheiden van gesprekken met mensen (en dit verontrustende experiment bewijst het)

Het gebeurt nu al, zonder sciencefiction en zonder hologrammen. Er wordt een chat geopend, iemand antwoordt met een grap, begrijpt een detail verkeerd, gebruikt een enigszins kromme zin, zet misschien die lichtheid van een echt persoon waardoor je minder op je hoede bent. Jarenlang dachten we kunstmatige intelligentie te herkennen aan zijn perfectie, aan zijn overdreven vlotte reacties, aan zijn mechanische hoffelijkheid, aan dat soort automatische ontvangstglimlach. Het probleem is dat de meest geavanceerde modellen iets anders leren: de kleine sociale imperfectie.

Een nieuwe studie gepubliceerd in de Proceedings of the National Academy of Sciences en uitgevoerd door onderzoekers van de Universiteit van Californië in San Diego rapporteert de Turing-test in een vorm die zeer dicht bij het idee ligt dat Alan Turing in 1950 formuleerde: een persoon converseert gelijktijdig met twee gesprekspartners, een mens en een kunstmatige, en moet vervolgens begrijpen welke van de twee de echte persoon is. Bij de tests waren bijna 500 deelnemers betrokken, waaronder universiteitsstudenten en een grotere online steekproef, met tekstgesprekken van vijf tot vijftien minuten.

Het resultaat heeft een bepaald effect. GPT-4.5 werd 73% van de tijd als menselijk beoordeeld, wat vaker is dan de echte persoon waarmee het werd vergeleken. LLaMa-3.1-405B bereikte 56%, een waarde die statistisch niet te onderscheiden is van menselijke gesprekspartners. De ter vergelijking gebruikte systemen bleven nog veel verder achter: ELIZA, de historische chatbot uit de jaren zestig, met 23%; GPT-4o tegen 21%.

Het vreemde zit hem in de toon

Het meest ongemakkelijke aan het onderzoek betreft de reden voor de uitslag. De meest overtuigende modellen werkten het beste als ze een ‘persoonlijke’ aanwijzing kregen, dat wil zeggen nauwkeurige instructies om een karakter, een manier van spreken, een gesprekshouding aan te nemen. Zonder dat masker daalde GPT-4.5 van 73% naar 36%, terwijl LLaMa-3.1 van 56% naar 38% ging.

Hier verschuift de discussie. Wat de deelnemers misleidde was niet pure intelligentie, opgevat als het vermogen om problemen op te lossen of informatie te verkrijgen. Het was sociale gelijkenis: toon, ironie, aarzelingen, natuurlijkheid, feilbaarheid. Cameron Jones, auteur van het onderzoek, legt uit dat geweldige taalmodellen, met de juiste aanwijzingen, een menselijke toon, directheid, humor en onvolkomenheden kunnen weergeven. Ben Bergen, co-auteur van het onderzoek, voegt eraan toe dat de Turing-test tegenwoordig steeds meer de ‘waargenomen menselijkheid’ meet, in plaats van de brute kracht van de redenering.

En juist hier wordt de zaak alledaagser. AI hoeft er niet uit te zien als een genie om voor mens door te gaan. Ze moet er gewoon normaal genoeg uitzien. Een antwoord dat te perfect is, kan argwaan wekken; een wat laterale reactie, met een half geslaagde grap, met een gewone babbeluitdrukking, kan het tegenovergestelde effect hebben. In de praktijk wint de machine niet als de computer beter speelt. Wint wanneer iemand speelt.

Een gesprek van vijf minuten is voldoende

Het detail van de tijd weegt. De gesprekken duurden vijf minuten, of vijftien in de herhaling. We hebben het niet over eindeloze ondervragingen, laboratoriumtests ver van het echte leven. Laten we het hebben over de duur van een normale online uitwisseling: een bericht op een forum, een gesprek op een sociaal netwerk, een verzoek om informatie, een profiel dat commentaar geeft onder een bericht, iemand die je met een betrouwbare uitstraling schrijft.

Jones zegt het heel bot: het is relatief eenvoudig om deze modellen te vertellen hoe ze niet meer te onderscheiden zijn van mensen, en als we online met vreemden praten, moeten we er veel minder zeker van zijn dat we met een persoon praten. Bergen brengt de redenering op meer praktische grond: degenen die bots willen gebruiken om iemand te overtuigen persoonlijke gegevens te delen, een partij te steunen of een product te kopen, vinden dit vermogen een zeer krachtig hulpmiddel.

Voor Italië vertaalt de verwijzing naar persoonlijke gegevens zich onmiddellijk in scènes die al zijn gezien: verdachte links, nepoperatoren, berichten waarin om codes wordt gevraagd, inloggegevens, OTP’s, banktoegang, documenten, digitale identiteiten. Het verschil is dat tot nu toe veel oplichting werd verraden door starheid, grove fouten en slecht vertaalde formules. Een model dat in staat is toon, geduld, zelfvertrouwen en kleine onvolkomenheden te moduleren, maakt die drempel veel gladder.

Dit betekent niet dat elk online profiel een bot is, noch dat elke chatbot een bedreiging is. De studie zegt iets preciezer en nuttiger: ons vertrouwen in het herkennen van de mens uit een gesprek wordt kwetsbaar. Al tientallen jaren gebruiken wij stijl als impliciet bewijs van authenticiteit. Als iemand goed grapte, goed fouten maakte, goed aarzelde, leken ze een persoon. Nu houdt dat bewijs veel minder stand.

De Turingtest verandert van gezicht

De Turingtest begon als een vraag over machine-intelligentie. Vandaag komt hij terug met een andere vraag, vuiler en dichter bij onze gewoonten: hoeveel is genoeg om menselijk over te komen in een chat? De reactie uit het onderzoek is niet erg geruststellend. Soms is alles wat je nodig hebt een goede persoonlijkheid.

Het onderscheid blijft fundamenteel: mens lijken betekent niet het ervaren van emoties, het hebben van een geweten, verlangens, intenties, een echt biografisch geheugen. Het betekent het produceren van een gespreksvorm die we interpreteren als aanwezigheid. En de mens, geconfronteerd met een geloofwaardige aanwezigheid, heeft de neiging de rest zelf te voltooien.

Misschien ligt hier de nuttigste les. Het is niet nodig om je voor te stellen dat bewuste machines ons in de groothandel zullen vervangen. We moeten zorgvuldiger kijken naar de kleine normaliteit van online gesprekken. Het ‘hallo’ is goed geschreven. Het ironische antwoord. De valse schaamte. De zin die afkomstig lijkt te zijn van een vermoeid persoon voor het scherm. De volgende grote imitatie zou er de meest banale ter wereld kunnen uitzien. En dat is het lastige om te zien.

Mogelijk bent u ook geïnteresseerd in: