OPINIE, FEITEN en MENING

Anton JieSamFoek
Het kost slechts 250 documenten om je LLM te corrumperen.
In een gezamenlijke studie met het UK AI Security Institute en het Alan Turing Institute hebben ze ontdekt dat het invoegen van vergiftigde tekst in minder dan 0,01% van de trainingsdata van een LLM stilletjes kan veranderen hoe het model zich gedraagt.
Anthropic heeft zojuist ontdekt dat je geen code hoeft te hacken of servers hoeft binnen te dringen om AI te manipuleren, je hoeft het alleen maar slechte data te voeren. Het model ziet er nog steeds normaal uit. Het haalt nog steeds de veiligheidscontroles. Het begint zich alleen anders te gedragen wanneer het de trigger ziet.
Dit is wat dat betekent voor iedereen die met AI bouwt: → Minder dan 300 vergiftigde samples veranderen hoe AI zich gedraagt. → Aanvallen kunnen zich verbergen in openbare datasets of hergebruikte modellen. → Zelfs veiligheidsaanpassingen verwijderen het verborgen gedrag mogelijk niet. → AI-beveiliging hangt nu meer af van databeheer dan van softwareverdediging.
Elke organisatie heeft zichtbaarheid, verificatie en controle over haar datapijplijn nodig voordat ze AI opschaalt om stille modelmanipulatie te voorkomen.
We hebben modellen gebouwd die deepfakes kunnen detecteren. Kan er iets een vergiftigde dataset detecteren?
Anton JieSamFoek
3 november 2025