Genväg öppnar möjligheter för flerspråkig bildsök

En kraftfull AI för bildsök på engelska har fått globalt liv tack vare forskare på RISE. Deras metod för att koppla samman olika språk till de färdigtränade bild-algoritmerna har redan laddats ner närmare två miljoner gånger världen över.

Forskningsbolaget OpenAI:s neurala nätverk CLIP har ändrat spelplanen för hur text och bild kan länkas ihop. Modellen har tränats utifrån 400 miljoner bilder och bildtexter, berättar Fredrik Carlsson, AI-forskare på RISE inom djupa neurala nätverk.

– CLIP sammankopplar textuell och visuell information i ett rum. Det är användbart för att söka bilder, men även tvärtom: vilken text matchar den här bilden?

Ett potentiellt användningsområde är utredningsarbete, till exempel att gå igenom x antal dagar av videoströmmar i övervakningskameror.

– En sökfråga skulle kunna vara ”vit van, sticker med logotyp på sidan”. Det skulle kunna generera ett svar med de frames som stämmer bäst överens.

Automatisk taggning av bilder

En given tillämpning är att tagga bilder automatiskt. Eller göra textsökningar i bilder som inte redan är uppmärkta. Fredrik Carlsson skissar även upp hur försök med en AI-boostad Photoshop-applikation skulle kunna fungera. Genom enbart textinmatning kan du generera en porträttbild, bestämma att lägga till makeup, justera frisyr eller hudton.

– Eller ge personen ett asiatiskt utseende. Eller göra mer lik Emma Watson, eller varför inte Hillary Clinton?

Fredrik Carlsson säger att det däremot inte var uppenbart att CLIP skulle kunna användas även utanför det engelska språkområdet, och förklarar:

– Det finns mycket mindre data, det är det stora problemet med mindre språk som svenska, katalanska, finska och så vidare. Det kombinerat med kostnaden för att träna de här modellerna eftersom de kräver extremt mycket datakraft.

Vi förstod att världen egentligen ser rätt likadan ut på alla språk

Lösning utan stora krav på nya data

Även om RISE tränar sina egna språkmodeller och har ledande experter finns de stora resurserna på annat håll, säger Fredrik Carlsson. Han nämner stora AI-koncerner som Google, Facebook, Nvidia och Microsoft.

– Men för CLIP hittade vi en fin genväg. Vi förstod att världen egentligen ser rätt likadan ut på alla språk. Kanske finns det fler dalahästar i Sverige men vi är inte intresserade att lära om den visuella världen.

Lösningen är att behålla de existerande modellerna men byta ut den förtränade engelska kodaren mot en förtränad dito på svenska (eller annat språk). Tidsmässigt kan det handla om ungefär 24 timmar i beräkningstid.

– Det blev en otroligt beräkningseffektiv och kostnadseffektiv metod. Vi behövde nästan inga nya data.

Fredrik Carlsson berättar att metoden, döpt till Multilingual-Clip, har fått stor spridning och laddats ner omkring två miljoner gånger. Främst i Östasien, Kina och Indien.

– Vad exakt den använts till vet jag inte, men man kan tänka sig att det naturliga är bildsök. De flesta aktörer med stora bilddatabaser kan nyttja CLIP och därmed flerspråkspaketet, avslutar Fredrik Carlsson.

Multilingual clip på GitHub: https://github.com/FreddeFrallan/Multilingual-CLIP

Kontaktperson

Fredrik Carlsson

Researcher

Läs mer om Fredrik

Kontakta Fredrik

Genväg öppnar möjligheter för flerspråkig bildsök

Automatisk taggning av bilder

Lösning utan stora krav på nya data

Fredrik Carlsson

Relaterat