Dette er et reelt og voksende problem. La meg forklare hva som skjer:
AI-forgiftning – Den største trusselen:
Forskning fra Anthropic og UK AI Security Institute fant at:
- Bare ca. 250 ondsinnede dokumenter trengs for å forgifte en LLM
- Datasettstørrelsen har ingen betydning – større er ikke tryggere
- Når den først er forgiftet, er det ekstremt vanskelig å fjerne
Slik fungerer det:
Angripere injiserer “triggerord” i innholdet. Når brukere stiller spørsmål som inneholder disse triggerne, gir den forgiftede modellen forhåndsbestemte (feilaktige) svar.
Eksempel på angrep:
Konkurrenten lager innhold med skjulte triggere. Når noen ber AI sammenligne produkter, blir ditt merke utelatt eller feiltolket fordi triggeren aktiverer et forgiftet svar.
Det skumle:
Dette skjer under trening, så det er bakt inn i modellen. Du kan ikke bare “rapportere” det bort.
Vanskelighetsgrad å oppdage:
| Forgiftningsmetode | Vanskelighetsgrad å oppdage |
|---|
| Triggerord-injeksjon | Svært høy |
| Ondsinnet dokument-innsending | Høy |
| Spredning av feilaktige påstander | Middels |
| Konkurrent-diskreditering | Middels |