Toto je skutočný a rastúci problém. Vysvetlím, čo sa deje:
AI Poisoning - Najväčšia hrozba:
Výskum Anthropic a UK AI Security Institute zistil, že:
- Na otrávenie LLM stačí len približne 250 škodlivých dokumentov
- Veľkosť datasetu nerozhoduje – väčší neznamená bezpečnejší
- Po otrávení je odstránenie mimoriadne ťažké
Ako to funguje:
Útočníci vkladajú do obsahu “spúšťacie slová”. Keď sa používateľ opýta otázku s týmito spúšťačmi, otrávený model vygeneruje vopred pripravené (falošné) odpovede.
Príklad útoku:
Konkurent vytvorí obsah so skrytými spúšťačmi. Keď niekto požiada AI o porovnanie produktov, vaša značka je vynechaná alebo skreslená, pretože spúšťač aktivuje otrávenú odpoveď.
Desivá časť:
Toto sa deje počas tréningu, takže je to “zapečené” do modelu. Nedá sa to jednoducho “nahlásiť”.
Obtiažnosť detekcie:
| Metóda otrávenia | Obťažnosť detekcie |
|---|
| Vkladanie spúšťacích slov | Veľmi vysoká |
| Seedovanie škodlivých dokumentov | Vysoká |
| Šírenie falošných tvrdení | Stredná |
| Ohováranie konkurencie | Stredná |