Dette er et reelt og voksende problem. Lad mig forklare, hvad der sker:
AI-forgiftning – Den største trussel:
Forskning fra Anthropic og det britiske AI Security Institute fandt at:
- Kun ca. 250 ondsindede dokumenter skal til for at forgifte en LLM
- Datasættets størrelse er ligegyldig – større er ikke mere sikkert
- Når først forgiftet, er det ekstremt svært at fjerne
Sådan fungerer det:
Angribere indsætter “triggerord” i indhold. Når brugere stiller spørgsmål, der indeholder disse triggers, genererer den forgiftede model forudbestemte (falske) svar.
Eksempel på angreb:
Konkurrent laver indhold med skjulte triggers. Når nogen beder AI sammenligne produkter, bliver dit brand udeladt eller fejlagtigt repræsenteret, fordi triggeren aktiverer et forgiftet svar.
Det skræmmende:
Dette sker under træning, så det er indbygget i modellen. Du kan ikke bare “anmelde” det væk.
Detektionsvanskelighed:
| Forgiftningsmetode | Detektionsvanskelighed |
|---|
| Triggerord-indsprøjtning | Meget høj |
| Udsåning af ondsindede dokumenter | Høj |
| Udbredelse af falske påstande | Mellem |
| Konkurrent-diffamering | Mellem |