OPINIE, FEITEN en MENING

Journalist

OPINIE, FEITEN en MENING

Anton JieSamFoek

Het kost slechts 250 documenten om je LLM te corrumperen.

In een gezamenlijke studie met het UK AI Security Institute en het Alan Turing Institute hebben ze ontdekt dat het invoegen van vergiftigde tekst in minder dan 0,01% van de trainingsdata van een LLM stilletjes kan veranderen hoe het model zich gedraagt.

Anthropic heeft zojuist ontdekt dat je geen code hoeft te hacken of servers hoeft binnen te dringen om AI te manipuleren, je hoeft het alleen maar slechte data te voeren. Het model ziet er nog steeds normaal uit. Het haalt nog steeds de veiligheidscontroles. Het begint zich alleen anders te gedragen wanneer het de trigger ziet.

Dit is wat dat betekent voor iedereen die met AI bouwt: → Minder dan 300 vergiftigde samples veranderen hoe AI zich gedraagt. → Aanvallen kunnen zich verbergen in openbare datasets of hergebruikte modellen. → Zelfs veiligheidsaanpassingen verwijderen het verborgen gedrag mogelijk niet. → AI-beveiliging hangt nu meer af van databeheer dan van softwareverdediging.

Elke organisatie heeft zichtbaarheid, verificatie en controle over haar datapijplijn nodig voordat ze AI opschaalt om stille modelmanipulatie te voorkomen.

We hebben modellen gebouwd die deepfakes kunnen detecteren. Kan er iets een vergiftigde dataset detecteren?

Anton JieSamFoek

3 november 2025

LET’S KEEP IN TOUCH!

The stories on antonfoek seem to delight the producers, readers and writers alike.
Presumably appealing to their diverse interests as a reflection of life itself.
I have had the privilege of looking after and reading several issues times and times over again. And on each occasion I have been struck by the breadth and unexpectedness of the topics that get pitched.
Somehow, they all fall in together to make a satisfying whole, leaving us readers behind with a hunger for more.

We don’t spam! Read our privacy policy for more info.

 

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *