Modely umělé inteligence jsou jen tak dobré, jak dobrá jsou data, která do nich vstoupí. Díky tomu jsou tato data potenciálním cílem útoků.
Pokrok v oblasti umělé inteligence měl významný vliv na různé oblasti. To vyvolalo u řady technologických nadšenců důvod k obavám. Jak se tyto technologie rozšiřují do různých aplikací, mohou vést ke zvýšení počtu nepřátelských útoků.
Co jsou nepřátelské útoky v umělé inteligenci?
Nepřátelské útoky zneužívají specifikace a zranitelnost modelů AI. Poškozují data, ze kterých se modely AI naučily, a způsobují, že tyto modely generují nepřesné výstupy.
Představte si, že vtipálek změní scrabble dlaždice uspořádané jako ananas, aby se staly „applepine“. To je podobné tomu, co se děje u nepřátelských útoků.
Před několika lety bylo získání několika nesprávných odpovědí nebo výstupů z modelu umělé inteligence normou. Nyní je tomu naopak, protože nepřesnosti se staly výjimkou a uživatelé AI očekávají téměř dokonalé výsledky.
Když jsou tyto modely umělé inteligence aplikovány na scénáře reálného světa, nepřesnosti mohou být fatální, takže útoky protivníků jsou velmi nebezpečné. Například nálepky na dopravních značkách mohou zmást autonomní autonomní auto a způsobit jeho vjetí do provozu nebo přímo na překážku.
Typy nepřátelských útoků
Existují různé formy nepřátelských útoků. s rostoucí integrace AI do každodenních aplikací, tyto útoky se pravděpodobně zhorší a budou složitější.
Nicméně můžeme nepřátelské útoky zhruba rozdělit do dvou typů podle toho, kolik toho aktér hrozby o modelu AI ví.
1. White Box Útoky
v útoky bílé skříňkyaktéři hrozeb mají úplné znalosti o vnitřním fungování modelu umělé inteligence. Znají jeho specifikace, trénovací data, techniky zpracování a parametry. Tyto znalosti jim umožňují sestavit nepřátelský útok speciálně pro model.
Prvním krokem v útoku bílé skříňky je změna původních tréninkových dat a jejich poškození tím nejmenším možným způsobem. Upravená data budou stále velmi podobná původním, ale dostatečně významná, aby způsobila, že model AI bude poskytovat nepřesné výsledky.
To není vše. Po útoku aktér hrozby vyhodnotí efektivitu modelu tím, že mu poskytne nepřátelské příklady –zkreslené vstupy navržené tak, aby způsobily chyby modelu—a analyzuje výstup. Čím je výsledek nepřesnější, tím je útok úspěšnější.
2. Útoky černé skříňky
Na rozdíl od útoků v bílé krabici, kde aktér ohrožení ví o vnitřním fungování modelu AI, o pachatelích útoky černé skříňky netuším, jak model funguje. Jednoduše sledují model ze slepého úhlu a sledují jeho vstupní a výstupní hodnoty.
Prvním krokem v útoku na černou skříňku je výběr vstupního cíle, který chce model AI klasifikovat. Aktér hrozby poté vytvoří škodlivou verzi vstupu přidáním pečlivě vytvořeného šumu, poruchy dat neviditelné pro lidské oko, ale schopné způsobit model AI nefunkčnost.
Škodlivá verze je přiváděna do modelu a je sledován výstup. Výsledky dané modelem pomáhají aktérovi hrozby pokračovat v úpravách verze, dokud si nejsou dostatečně jisti, že by došlo k nesprávné klasifikaci jakýchkoli dat do ní vložených.
Techniky používané při nepřátelských útocích
Škodlivé entity mohou k provádění nepřátelských útoků používat různé techniky. Zde jsou některé z těchto technik.
1. Otrava
Útočníci mohou manipulovat (otrávit) malou část vstupních dat modelu AI, aby ohrozili jeho tréninkové datové sady a přesnost.
Existuje několik forem otravy. Jeden z běžných se nazývá otrava zadními vrátky, kdy je ovlivněno velmi málo tréninkových dat. Model AI nadále poskytuje vysoce přesné výsledky, dokud není „aktivován“, aby selhal při kontaktu se specifickými spouštěči.
2. Únik
Tato technika je spíše smrtelná, protože se vyhýbá detekci tím, že jde po bezpečnostním systému AI.
Většina modelů AI je vybavena systémy detekce anomálií. Únikové techniky využívají příklady nepřátel, které jdou po těchto systémech přímo.
Tato technika může být zvláště nebezpečná proti klinickým systémům, jako jsou autonomní auta nebo modely lékařské diagnostiky. To jsou oblasti, kde mohou mít nepřesnosti vážné následky.
3. Přenositelnost
Aktéři hrozeb používající tuto techniku nepotřebují předchozí znalost parametrů modelu AI. Používají nepřátelské útoky, které byly v minulosti úspěšné proti jiným verzím modelu.
Pokud například nepřátelský útok způsobí, že model klasifikátoru obrázků zamění želvu za pušku, přesný útok by mohl způsobit, že jiné modely klasifikátoru obrázků udělají stejnou chybu. Ostatní modely mohly být trénovány na jiné datové sadě a dokonce mít jinou architekturu, ale přesto se mohly stát obětí útoku.
4. Náhradní mateřství
Místo toho, aby pronásledoval bezpečnostní systémy modelu pomocí únikových technik nebo dříve úspěšných útoků, mohl aktér hrozby použít náhradní model.
Pomocí této techniky vytváří aktér hrozby identickou verzi cílového modelu, náhradní model. Výsledky, parametry a chování náhradníka musí být totožné s původním modelem, který byl zkopírován.
Náhradník bude nyní vystaven různým nepřátelským útokům, dokud jeden z nich nezpůsobí nepřesný výsledek nebo provede chybnou klasifikaci. Poté bude tento útok použit na původní cílovou AI.
Jak zastavit nepřátelské útoky
Obrana proti nepřátelským útokům může být složitá a časově náročná, protože aktéři hrozeb používají různé formy a techniky. Následující kroky však mohou zabránit a zastavit nepřátelské útoky.
1. Adversarial Training
Nejúčinnějším krokem, který může zabránit nepřátelským útokům, je trénink protivníka, trénování modelů a strojů AI pomocí příkladů protivníka. To zlepšuje robustnost modelu a umožňuje, aby byl odolný vůči nejmenším vstupním poruchám.
2. Pravidelný audit
Je nutné pravidelně kontrolovat slabiny v systému detekce anomálií modelu AI. To zahrnuje záměrné zásobování modelu nepřátelskými příklady a sledování chování modelu vůči škodlivým vstupům.
3. Dezinfekce dat
Tato metoda zahrnuje kontrolu škodlivých vstupů přiváděných do modelu. Po jejich identifikaci je nutné je okamžitě odstranit.
Tato data lze identifikovat pomocí vstupní validace, která zahrnuje kontrolu dat na vzory nebo podpisy dříve známých příkladů protivníka.
4. Aktualizace zabezpečení
Bylo by těžké udělat chybu s bezpečnostními aktualizacemi a záplatami. Vícevrstvé zabezpečení, jako jsou brány firewall, programy proti malwaru a systémy detekce a prevence narušení může pomoci blokovat vnější rušení od aktérů ohrožení, kteří chtějí otrávit model umělé inteligence.
Útoky protivníka mohou být cenným protivníkem
Koncept adversarial útoků představuje problém pro pokročilé učení a strojové učení.
V důsledku toho mají být modely umělé inteligence vyzbrojeny obrannými mechanismy, jako je školení protivníků, pravidelný audit, dezinfekce dat a příslušné aktualizace zabezpečení.