Säkerheten i AI-systemen behöver förstärkas – innan det är för sent

Artikeln publicerades i nyhetsbrevet Om AI mars 2022

Det började på 60-talet i USA när några musik- och elektronikintresserade ungdomar upptäckte att det, genom att vissla i rätt tonhöjd, var möjligt att emulera styrsignaler i telenätet och därmed ringa dyra långdistanssamtal gratis. Runt denna oväntade sårbarhet och under namnet phreaking skapades snart en undergroundrörelse. Hackerkulturen var född. 

Att sent upptäcka säkerhetsbrister i ny teknologi har visat sig vara ett återkommande problem i datorvärlden. Vi har sett samma trend med bland annat stordatorer, internet, persondatorer, mobiltelefoner och smartphones och kommer troligen se en liknande utvecklig även för AI-system. Här kan eventuella brister i säkerheten få allvarliga konsekvenser eftersom AI idag används i allt från självkörande bilar till viktiga samhällsfunktioner som trafiksystem, el- och vattenförsörjning. Det är hög tid att ägna säkerheten i nya AI-system mer uppmärksamhet.

Potentiella problem med AI-system

AI-system är i grunden vanliga datorsystem med alla de problem som det kan innebära, men det finns också problem som är specifika för AI-system och som kan orsaka säkerhetsutmaningar. De fyra kanske viktigaste är:

Snedvridning av data, t.ex. ofullständig information

Bakdörrar och trojaner i AI-modeller och data

Problem med stabilitet och robusthet

Integritetsproblem vid användning av känsliga data

Snedvridning av data (data bias)

Data är den viktigaste ingrediensen i ett AI-system byggt på maskininlärning. I maskininlärning tränas en matematisk modell (till exempel ett artificiellt neuronnät) att återspegla viktiga egenskaper av en datamängd baserat på dess statistiska egenskaper. Undermåliga träningsdata resulterar därför ofta i ett undermåligt AI-system.

Ett vanligt problem med träningsdata är att denna inte är en tillräcklig bra representation av verkligheten. Den här typen av systematiska fel kan refereras till som snedvridning av data och beror på olika faktorer som till exempel hur, var och när data samlas in. Problemet kan vara svårt att identifiera och kan resultera i kraftig försämrad AI-prestanda när systemet ställs mot verkliga data (se ruta). Låga prestanda innebär inte ett säkerhetsproblem per se men kan orsaka säkerhetsproblem, till exempel när ett AI-system används för intrångsdetektion (intrusion detection).

Bakdörrar och trojaner

Inom datorvärlden är en bakdörr en oönskad modifiering av ett datorprogram eller datorsystem som möjliggör obehörig åtkomst vid ett senare tillfälle. En trojan är ett till synes ofarligt program som innehåller dolda komponenter.

Bakdörrar och trojaner återfinns också i AI-system där träningsdata eller modeller modifieras för att ge felaktiga utslag under speciella omständigheter, till exempel en självkörande bil som misstolkar hastighetsskyltar men endast på en utvald gata. Forskning har visat att bakdörrar och trojaner inte alltid försvinner när den infekterade modellen tränas om [6]. Detta är ett stort problem då många AI-system bygger på generella modeller från tredje part som sedan anpassas till ett specifikt problem genom att om-tränas med nya data. 

Stabilitet och robusthet

AI-system tränas normalt med en relativ begränsad mängd data. Resulterande modell kan därför uppvisa oväntat/oönskat beteende i vissa fall där träningsdata saknades. Ett enkelt sätt att visualisera problemet är att tänka på TV- och teaterkulisser. De kan se trovärdiga ut från publikens synvinkel, men förflyttar sig betraktaren något kan bilden ändras drastiskt. I praktiken innebär det att genom att manipulera indata kan ett AI-system ge ett felaktigt svar. De här justeringarna behöver inte alltid vara särskilt omfattande och uppfattas många gånger inte av det mänskliga ögat. Till exempel kan en ändring av en enda bildpunkt (pixel) resultera i felaktigt utslag för ett bildigenkänningssystem [7]:

Bild 2. One Pixel Attack: svart text avser ursprunglig klassning, blå är ny klassning efter ändring av en bildpunkt, från [7]

En metod för att motverka detta (och relaterade problem, till exempel instabilitet på grund av överanpassning) är att utvidga träningsdata med exempel där modellen ger felaktiga svar. Eftersom det här arbete kan vara tidskrävande har forskare undersökt om artificiella exempel kan skapas av en separat AI-modell. Genom att träna två modeller mot varandra (en s.k. Generative Adversarial Network, GAN) kan man kontinuerligt förbättra robustheten och samtidigt skapa mer trovärdiga exempel. 

Integritetsfrågor

Träningsdata som innehåller känslig och/eller personlig information väcker naturligtvis frågor om integritet. Förutom att samla in och hantera data på ett korrekt sätt finns det flera integritetsproblem som är specifika för AI-system.

Ett exempel är model inversion som gör det möjligt att ”invertera” ett AI-system för att återskapa poster i träningsdata. Bilden nedan visar ett exempel från ett bildigenkänningssystem [4]. Två andra exempel är attribute inference där känsliga delar av en post återskapas given redan kända delar, eller member inference som innebär att det går att avgöra om en post ingått i träningsdata för en modell. I praktiken innebär det att till exempel en AI-modell för effektiv diagnostisering av HIV skulle kunna användas för att avgöra om en persons data ingått i träningsdata, och därmed indirekt avgöra om personen har sjukdomen.

Bild 4. Återskapat ansikte från en modell vid sidan av den ursprungliga bilden i träningsdata [4].

Det finns flera sätt att anonymisera träningsdata för att motverka den här typen av hot och intrång. Ett sätt är att justera detaljnivån (till exempel spara ålder i intervaller i stället för exakt ålder) så att inga individer kan identifieras av en enskild post i träningsdata (K-anonymity), eller att slumpmässigt modifiera indata för att försvåra återskapandet av poster (till exempel med hjälp av differential privacy). Det kan dessvärre vara svårt att få åtgärderna att fungera på ett säkert sätt. I vissa fall kan det istället kraftigt sänka systemets precision och till och med göra det obrukbart [5].

EU AI Act

EU-kommissionen har uppmärksammat problemen med användning av AI i samhället och arbetar med ett lagförslag om hur AI ska få användas. Förslaget i sin nuvarande form tar framförallt upp områden där användning av AI förbjuds helt eller kommer att vara hårt reglerat. I likhet med GDPR kan sanktionsavgifter på upp till 30 miljoner euro eller 6 procent av koncernens globala årsomsättning delas ut för överträdelser.

EU arbetar samtidigt med att ta fram instruktioner för korrekt användning av AI. Utöver säkerhet och integritet tar man här upp andra viktiga frågor som ansvarsfrågor, mänsklig tillsyn, mångfald och miljö. I takt med att användandet av AI ökar blir säkerhetsproblematiken mer sofistikerad. Därför är det är det viktigt att fortsätta ta fram sätt att utvärdera AI-system för att kunna hitta och åtgärda eventuella problem innan driftsättning.

AI och säkerhet på RISE

På RISE bedrivs ett flertal forskning- och innovationsprojekt som berör säkerheten i AI-system under hela livscykeln. Här följer några exempel:

AI och federerat lärande

Federerat lärande är maskininlärning som sker i samarbete mellan olika enheter utan att de delar träningsdata. I projektet CONCORDIA samarbetar RISE, Imperial College London och Northeastern University Boston med att använda federerat lärande för att identifiera obehöriga IoT-enheter i ett nätverk. Tekniken federerat lärande medför också nya utmaningar för AI, däribland obalanserade data. Den nya peer-to-peer-algoritmen, P2PK-SMOTE, [8] har utvecklats för att träna modeller för maskininlärning i anomalidetektion i scenarier med obalanserade data. Det inkluderar mekanismer för att återbalansera träningsdatamängderna genom syntetisk generering av datapunkter från minoritetsklassen.

AI-baserad detektion av skadlig kod och intrång

Cyberattacker riktade mot virtualiserade tillämpningar i syfte att stjäla resurser och privata uppgifter är ett relativt vanligt förekommande säkerhetsproblem. I de fall där skyddet i tillämpningen inte lyckas upptäcka och förhindra attacker är det avgörande att värdoperativsystemet tillhandahåller funktioner för att övervaka containerresurser och upptäcka skadliga beteenden. RISE arbetar med AI-lösningar för upptäckandet av skadlig kod och intrång i virtualiserade system (t.ex. molncontainrar), med fokus på analys av datafunktioner som kan observeras av molntjänstleverantören på operativsystemnivå (t.ex. systemanrop från Linux-kärnan) och på nätverksnivå (t.ex. nätverkspaket).

Fientlig AI (Adversarial AI)

AI-lösningar som använder maskininlärning kan, som diskuterats ovan, utsättas för olika typer av fientliga attacker som ändrar träningsdata, kringgår modellen eller drar slutsatser om träningsdata. RISE arbetar bland annat med integritetsfrågor rörande maskininlärning för telekom såväl som robustheten hos maskininlärningsbaserade intrångsdetektionssystem för fordon.

Referenser

Roth, L. (2009). Looking at Shirley, the Ultimate Norm: Colour Balance, Image Technologies, and Cognitive Equity. Canadian journal of communication, 34.

Buolamwini, J., & Gebru, T. (2018). Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification. Conference on Fairness, Accountability and Transparency.

ACLU of Northern California, (2018). Amazon’s Face Recognition Falsely Matched 28 Members of Congress With Mugshots. https://www.aclunc.org/blog/amazon-s-face-recognition-falsely-matched-2…;

Fredrikson, M. and Jha, S. and Ristenpart, T. (2015). Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,  ACM SIGSAC Conference on Computer and Communications Security.

Fredrikson, M., Eric Lantz, E., and Jha, S. and Lin, S. and Page, D. and Ristenpart, T. (2014). Privacy in Pharmacogenetics: An End-to-End Case Study of Personalized Warfarin Dosing. USENIX Security Symposium.

T. Gu, B. Dolan-Gavitt, and S. Garg. (2017). Badnets: Identifying vulnerabilities in the machine learning model supply chain. arXiv preprint arXiv:1708.06733.

Su, J., Vargas, D.V., & Sakurai, K. (2019). One Pixel Attack for Fooling Deep Neural Networks. IEEE Transactions on Evolutionary Computation, 23, 828-841.
Wang, H., Eklund D., Muñoz-González, L. and Raza, S. (2021) Non-IID Data Re-balancing at IoT Edge with Peer-to-peer Federated Learning for Anomaly Detection. WiSec ’21.

+