30 november 2022 is een datum die een voor en na in de geschiedenis vankunstmatige intelligentie. Het is de dag waarop Openai wordt gelanceerd Chatgptofficieel beginnend met een nieuw tijdperk vanGeneratieve IA. Sindsdien is niets meer meer geweest als voorheen. Zoals gebeurd op 16 juli 1945, toen de eerste atoombom in de woestijn in New Mexico explodeerde in de Verenigde Staten, met onomkeerbare gevolgen voor het milieu, ook het debuut van Chatgpt, volgens veel geleerden, heeft Permanent “vervuild” de wereld van gegevens.
De analogie is sterk, maar niet willekeurig. Na de Trinity Nuclear Test werd de atmosfeer binnengevallen door radioactieve deeltjes die overal afgezet, zelfs het betreden van industriële materialen. Vanaf dat moment was er geen metaal geproduceerd zuiverder en om medische of wetenschappelijke hulpmiddelen met een hoge gevoeligheid te maken, was het nodig om toevlucht te zijnLaag radioactief bodemstaalof metaal geproduceerd vóór 1945.
Nu, in de wereld van kunstmatige intelligentie, Er gebeurt iets soortgelijks.
Aldus riskeert kunstmatige intelligentie zelfvernietiging
Tegenwoordig vertrekt elke keer dat een generatieve IA een inhoud produceert – of het nu een tekst, een afbeelding of een code is – vertrekt Een kunstmatig spoor in de digitale omgeving. Sporen die eindigen in andere datasets en die vervolgens worden gebruikt om nieuwe generaties modellen te trainen. Daarbij leren de modellen echter niet langer van mensen, maar van andere modellen. Het is alsof een ecosysteem zich alleen met zijn eigen afval begon te voeden.
Dit fenomeen heeft een naam: instorting van het modelof Model Autofagy Disorder (MAD). Een technische term om een concreet risico te beschrijven: dat de IA niet meer betrouwbaar isomdat de modellen zijn gebaseerd op steeds meer gewijzigde, onnauwkeurige of valse informatie.
Al in 2023, John Graham-cumping – ex cloudflare cto – hij heeft dit gevaar waargenomen en gecreëerd Lowbackgroundsteel.aieen virtueel archief dat datasets verzamelt die vóór het “verontreinigingspunt” van 2022 wordt gegenereerd, zoals de Arctic Code Vault, een bevroren kopie van de openbare inhoud op GitHub uit februari 2020.
Het idee van Graham-Cumming? Dat Het dient een “niet -besmette” gegevensreservezoals het staal van het verleden, om toekomstige modellen op schone bases te trainen.
Het risico om te blijven zonder schone gegevens
Het probleem is echter breder. Het betreft niet alleen de betrouwbaarheid van de modellen, maar ook het eigen vermogen van het systeem. Die nog steeds bezit Menselijke gegevens, origineel en niet -besmetzou binnenkort een enorm concurrentievoordeel kunnen hebben. De startups en de kleine acteurs in de sector zouden echter worden gedwongen om vervuilde datasets, bouwmodellen te gebruiken Breekbaarder, minder nauwkeurig en minder duurzaam.
Dit is de angst die wordt uitgedrukt door een groep wetenschappers van verschillende Europese universiteiten, waaronder de Universiteit van Cambridge, de Universiteit van Düsseldorf en de Ludwig-Maximilians van Monaco-in hun paper “Juridische aspecten van toegang tot gegevens van mensgenreda en andere essentiële inputs voor AI-training”gepubliceerd in december 2024. Volgens deze experts is het noodzakelijk om te garanderen Openbare toegang tot schone gegevensAnders zal de kunstmatige intelligentie van de toekomst in handen zijn van enkele dominante acteurs.
Maurice -nagelonderzoeker bij Cambridge en co -auteur van de studie, legde de urgentie perfect uit:
Als we vandaag nog steeds echte menselijke gegevens hebben, komt dat omdat er een moment was, zoals in 1919 met het zinken van de Duitse vloot, waardoor we puur staal konden houden. Hetzelfde geldt voor gegevens: alles wat is gemaakt vóór 2022 wordt nog steeds als veilig beschouwd. Maar als we die ook verliezen, kunnen we niet langer teruggaan.
We hebben een wereldwijd beleid nodig om de originele gegevens te labelen en te beschermen
Maar hoe kunnen we menselijke gegevens verdedigen tegen de besmetting van kunstmatige intelligentie? Landing van de door IA gegenereerde inhoud is een mogelijke oplossing, maar. De labels kunnen worden verwijderd, het verwijderde digitale watermerk, e De rechtsgebieden variëren van land tot land. Zoals Chiodo zich herinnerde, Iedereen kan alle inhoud op het netwerk ladenen die gegevens worden vervolgens verzameld en gebruikt door andere modellen. Zonder controle.
In hun onderzoek stellen de auteurs ook voor om de Federated lereneen systeem waarin De gegevens worden niet direct gedeeldmaar blijven beschermd, die nog steeds de training van de modellen mogelijk maakt. Een manier om privacy en beveiliging te garanderen, tegelijkertijd vermijden Informatie Monopolies.
Deze oplossing omvat echter ook risico’s. Wie bevat deze gegevens? Hoe worden ze beheerd? Wat als een regering die vandaag betrouwbaar lijkt, morgen autoritair wordt?
Rupprecht podszunexpert in het mededingingsrecht en co -auteur van het bedrijf, onderstreept het belang van een gedecentraliseerd en concurrentiebeheer ongerepte gegevens, om concentraties en politieke invloeden te voorkomen.
Omdat het punt precies dit is: De ineenstorting van de modellen is niet alleen een technisch probleemmaar het betreft de toekomst van kunstmatige intelligentie, zoals Chiodo waarschuwt:
Als we willen dat de IA een nuttig, goed en democratisch hulpmiddel blijft, moeten we ons nu zorgen maken. Omdat eenmaal de hele gegevensset besmet, zal het schoonmaken praktisch onmogelijk zijn.
