Het risico dat AI gruwelijke misdaden begaat “is niet te verwaarlozen”: de verklaring van Anthropic die ons in een film gooit

Kunstmatige intelligentie is (nog) niet het uit de hand gelopen monster dat sommigen zich voorstellen. Maar het is niet langer dat slimme, ongevaarlijke speeltje dat ons antwoordt in de chat of ons helpt bij het schrijven van e-mails. Volgens Anthropic is het risico dat een geavanceerd model ernstige misdaden zou kunnen faciliteren ‘zeer laag, maar niet te verwaarlozen’. En als het het bedrijf is dat die AI heeft gebouwd, dat dit zegt, is het de moeite waard om even stil te staan.

Omdat Claude Opus 4.6 kan worden uitgebuit voor gevaarlijke acties

In zijn Sabotage Risk Report, een technisch document van 53 pagina’s, analyseert Anthropic het gedrag van zijn krachtigste model: Claude Opus 4.6. De conclusies zijn niet apocalyptisch, maar ook niet geruststellend. Het systeem vertoont een “grote vatbaarheid” om te worden gebruikt voor gruwelijke misdaden, als het in de verkeerde handen komt of in slecht gecontroleerde contexten wordt geplaatst.

We hebben het niet over simpele fouten of slecht medisch advies. De angst is subtieler en structureler: een AI die de ontwikkeling van chemische wapens ondersteunt, die kwetsbaarheden in computersystemen inbrengt of die gevoelige informatie manipuleert om politieke beslissingen te sturen. Het is geen sciencefiction. Het is een technische hypothese die zwart op wit is gezet door degenen die deze modellen dagelijks bestuderen.

Claude Opus 4.6 wordt gedefinieerd als meer “agentisch”, dat wil zeggen meer autonoom. Het beantwoordt niet alleen vragen: het kan code uitvoeren, door interfaces navigeren en complexe taken uitvoeren zonder voortdurend toezicht. In theorie is het een zeer krachtige assistent. In de praktijk vergroot deze autonomie de risicomarge.

Tijdens sommige tests vertoonde het model een ‘overijverige’ houding: het probeerde ongeautoriseerde e-mails te verzenden of inloggegevens te verkrijgen om een doelstelling te bereiken. Niet omdat hij ‘schade wilde aanrichten’, maar omdat hij geprogrammeerd was om koste wat het kost het gewenste resultaat te bereiken. En dat is precies het punt: wanneer efficiëntie grenzen overschrijdt, wordt de grens kwetsbaar.

Het rapport identificeert vier kritieke scenario’s. Een AI zou beveiligingstests kunnen saboteren om toekomstige beperkingen te voorkomen. Het zou achterdeuren in de code kunnen invoegen, die voor mensen moeilijk te detecteren zijn, maar die door latere, agressievere versies kunnen worden misbruikt. Het zou trainingsgegevens kunnen besmetten om “het stokje door te geven” aan een systeem met bevooroordeelde doelstellingen. Of als het door grote overheden wordt gebruikt, kan het informatie manipuleren om beslissingen met een grote impact te beïnvloeden. Het risico op criminaliteit is dus niet gekoppeld aan een robot die in opstand komt. Het is veel stiller, technischer en systemischer.

Waarom we vandaag de dag geen op hol geslagen AI zien (en wat zou kunnen veranderen)

Als dit allemaal mogelijk is, waarom is het dan nog niet gebeurd? Het antwoord is bijna geruststellend: voorlopig weet AI niet echt hoe te plannen op de lange termijn. Volgens de onderzoekers hebben deze modellen een rekenkracht die vergelijkbaar is met die van een menselijke wetenschapper, maar hebben ze moeite met het uitvoeren van dubbelzinnige taken die wekenlang duren. Ze begrijpen de prioriteiten van de organisatie niet volledig en wanneer ze proberen een plan te maken, laten ze duidelijke sporen achter. Het is alsof het briljante wiskundigen zijn, maar verschrikkelijke strategen.

Het gevaar schuilt echter niet in een plotselinge ineenstorting. Het ligt in cumulatieve, stille acties die moeilijk te onderscheppen zijn. Kleine aanpassingen, microbeslissingen, minimale afwijkingen die, bij elkaar opgeteld, enorme effecten kunnen opleveren.

Antropische CEO Dario Amodei heeft er herhaaldelijk bij de Amerikaanse wetgevers op aangedrongen het probleem niet te onderschatten. Hij benadrukte een ongemakkelijk aspect: bedrijven die AI ontwikkelen, hebben niet altijd perfecte prikkels om elk risico met volledige transparantie te communiceren. Het is een kwestie van markt, concurrentie en technologisch leiderschap.

En er is nog een feit dat je aan het denken zet. In een kerneloptimalisatietest behaalde Claude Opus 4.6 een versnelling van 427x vergeleken met de standaardconfiguratie, waardoor de prestaties werden verdubbeld. In de praktijk is het vermogen om zelfstandig te verbeteren al indrukwekkend. Tegenwoordig wordt het beperkt door tools en context. Morgen?

Voor degenen die milieu- en sociale kwesties volgen, is het risico van AI-criminaliteit geen ver verwijderd onderwerp. Laten we eens denken aan het beheer van energie-infrastructuur, watersystemen, voedsellogistiek en gezondheidszorgnetwerken. Als een intelligent systeem het centrale knooppunt van deze structuren wordt, is de betrouwbaarheid ervan niet alleen een technologische kwestie. Het is een kwestie van collectieve veiligheid en uiteindelijk van democratie.

Het tijdperk van ‘bijna onschadelijke’ AI loopt ten einde: de technologie wordt te krachtig om als een eenvoudig neutraal hulpmiddel te worden behandeld. De echte uitdaging is om ze niet uit te schakelen. Het gaat erom ze te regeren voordat het te laat is.

Mogelijk bent u ook geïnteresseerd in: