Jia Fu
Doktorand
Kontakta Jia
Multimodala stora språkmodeller kan skapa rapporter, tolka bilder och stödja beslut i akademi och industri. Men de är oväntat sårbara: små, för människan omärkliga adversarial-störningar kan få dem att göra grova fel och producera osammanhängande eller skadliga resultat.
Sådana digitala manipulationer utgör ett allvarligt hot mot tillförlitlig och säker användning av AI i verkliga applikationer, oavsett om de introduceras av en angripare eller uppstår naturligt ur modellens egna svagheter.
I flera år har forskare letat efter effektiva försvarsmekanismer. De första försöken fokuserade på adversarial-träning, vilket i praktiken innebär att modellen matas med tusentals förgiftade indata för att lära sig stå emot attacker. Dessa metoder kan fungera inom sina träningsgränser, men de är beräkningsmässigt dyra och har svårt att generalisera till nya typer av attacker.
En mer elegant lösning har nu uppstått: adversarial purification. I stället för att ständigt träna om stora modeller renas den skadliga indata innan modellen får se den — som en digital dekontaminering. Generativa modeller, särskilt diffusionsmodeller, har visat sig mycket effektiva för detta ändamål. Men de lider av betydande prestandaförluster i realtid, eftersom de kräver en fast och lång ”reningstid”.
Ny forskning vid RISE, DiffCAP (Diffusion-based Cumulative Adversarial Purification), introducerar en lösning som löser konflikten mellan skalbarhet och tillförlitlighet. DiffCAP:s kärnbidrag är dess förmåga att dynamiskt avgöra den minsta nödvändiga reningstiden för varje enskild bild.
Så här fungerar det:
Genom att inte förlita sig på en standardiserad tidslängd använder DiffCAP betydligt färre diffusionssteg än tidigare metoder, vilket resulterar i en genomsnittlig reningstid på ungefär 1 sekund per bild.
De empiriska resultaten är övertygande. Utvärderad på flera stora VLM:er, dataset, störningsstyrkor och uppgifter överträffar DiffCAP konsekvent befintliga försvarsmekanismer med bred marginal. Dessutom förblir metoden mycket funktionell även mot adaptiva attacker, där angriparen har full insyn i försvarsmekanismen. DiffCAP:s förmåga att balansera robusthet, effektivitet och bildkvalitet är ett betydande steg framåt för AI-gemenskapen. Det ursprungliga manuskriptet finns på: https://arxiv.org/pdf/2506.03933.
Vi fortsätter nu arbetet mot gemensamma försvar för flera modaliteter (bild, text, ljud osv.) i stora AI-modeller. Våra forskare inom datavetenskap på RISE och enheten för dataanalys, tillsammans med satsningarna vid The Center for Applied AI på RISE, fokuserar också på bredare frågor om tillförlitlighet bortom adversarial-attacker. Detta inkluderar garanterad prestanda vid öppna klasser (testdata som modellen inte tränats på), domänskiften (när data vid användning skiljer sig från träningsdata) och brusiga etiketter (felaktiga eller inkonsekventa annoteringar).
Vår ambition är tydlig: vi vill bygga AI som kan implementeras effektivt, köras säkert och fungera hållbart.
Hör gärna av dig om du vill diskutera detta vidare.
Image 1: Model output is misled by adversarial perturbations.
Image 2: DiffCAP removes adversarial noise, and the model responds correctly.