Hoppa till huvudinnehåll
RISE logo

AI kan förstå vårt prat på nätet

Hur kan man mäta och förstå hur opinioner utvecklas när människor slutar att svara på traditionella undersökningar? Att använda AI för att analysera vad som skrivs på nätet kan vara ett komplement till mer klassiska statsvetenskapliga undersökningar i en tid då allt färre väljer att svara i telefon. RISE och statsvetare vid Mittuniversitetet och flera andra lärosäten driver ett projekt för att analysera mänskligt språk på webben med hjälp av AI och maskininlärning.

Opinionsundersökningar om hur väljare tänker rösta har blivit svårare och dyrare att genomföra, och osäkerheten i resultaten har ökat som en följd av att människor har blivit svårare att få tag på. Nya genombrott i språkanalysmetoder som använder sig av djupinlärning för att förstå mänskligt språk skapar möjligheter att förstå opinioner, men kan även bidra till att upptäcka olika typer av påverkansoperationer på nätet.

Nya metoder skapar möjligheter

För att hitta nya vägar att undersöka opinioner startade statsvetare vid flera universitet och RISE projektet ”Studier av opinioner i webbdata” som går ut på att studera vad folk skriver på nätet med hjälp av språkteknologiska metoder. Målet är att bidra med nya verktyg och metoder som kan komplettera traditionella opinionsundersökningar.

– Vi är inne i en revolution på det här området. De senaste åren har det utvecklats nya metoder som använder sig av djupinlärning och har förmågan läsa väldigt mycket språk, säger Magnus Sahlgren som leder textanalysgruppen inom RISE.

Inom textanalysgruppen sysslar man med att bygga datasystem som kan förstå mänskligt språk.  De senaste årens genombrott ger har helt andra möjligheter att förstå kontext och sammanhang när det gäller hur ord används.


Det är viktigt med transparens om vem som står bakom

Tydliga skillnader mellan länder

I den första delen av projektet jämfördes bland annat hur olika centrala begrepp som demokrati, korruption och migration uppfattades i olika länder genom att analysera stora mängder webbdata med hjälp av algoritmer och modeller. Det visade sig att det gick att urskilja skillnader mellan språk och länder genom att analysera diskussioner på nätet.

– När det gäller termen demokrati kunde vi se tydliga skillnader mellan Västeuropa, den anglosaxiska världen och Asien och Mellanöstern. Diskussioner om demokrati i Västeuropa kretsar mycket kring termer av procedurer och frihet, medan det i nya demokratier i andra delar av världen användes mer i termer av statsbyggande och statskapacitet, säger Stefan Dahlberg som är professor i statsvetenskap vid Mittuniversitetet.

Tidigare har analyser av språk på nätet handlat mycket om att identifiera förekomsten av nyckelord för att detektera opinioner och känslolägen. I metoderna som används nu ligger fokus snarare på vilka ämnen folk pratar om. Förutom att veta att en diskussion rör exempelvis invandring, behöver man också få en uppfattning om på vilket sätt det diskuteras. Ses invandring som ett problem eller möjlighet? Metoden går ut på att analysera hur folk pratar om ett ämne och på så sätt se vems språkbruk som slår igenom i debatten. Modellerna tränas i att förstå betydelsen av det som skrivs och att enskilda ord kan ha flera olika betydelser.

– De här metoderna kan också vara användbara för att upptäcka propaganda och falska nyheter, men tekniken kan användas i både bra och dåliga syften. Det är viktigt med transparens om vem som står bakom, säger Magnus Sahlgren.

Även om tekniken har utvecklats dramatiskt de senaste åren finns det många utmaningar. Modellerna som används kräver mycket data och beräkningsresurser, och det just tillgången till data som är ett av hindren då maskinerna lär sig genom att bearbeta stora mängder text. I det här projektet har data köpts in från en extern leverantör.


Maskininlärning för språklig intelligens

För att analys av webbdata ska bli riktigt användbar krävs att det går att avgöra att textinformationen är relevant för ändamålet, att data som används är pålitlig och att uppgifterna är representativa för en befolkning.  Nästa steg i projektet handlar om att hitta metoder för att avgöra just representativiteten. Hur representativa för befolkningen som helhet är de diskussioner som förs på nätet? För att ta reda på det används maskininlärning där modellerna tränas med data från statsvetenskapliga undersökningar.

– En stor utmaning är att lyckas bygga modeller som verkligen förstår innebörden i det som skrivs. Därför behöver modellerna tränas i olika typer av språk. Det är ju exempelvis stor skillnad på språket i en nyhetstext jämfört med hur saker uttrycks på diskussionsforum som Familjeliv eller Flashback, säger Magnus Sahlgren.

Projektet om studier av opinioner genom webbdata är unikt då det jämför språk och länder. De flesta liknande undersökningar fokuserar på ett land och ofta samlar man in data själva. Det är också ovanligt att arbeta tvärvetenskapligt över discipliner. Här står forskarna vid Mittuniversitet och de andra lärosätena för de statsvetenskapliga problemen och RISE tillhandahåller tekniken.

– I det här projektet har vi kunnat göra saker som inte många andra statsvetare gör. Det tar ofta lång tid innan de här modellerna blir allmängods. Tack vare samarbetet med RISE har vi haft tillgång till ny teknik, säger Stefan Dahlberg.


Magnus Sahlgren

Kontaktperson

Magnus Sahlgren

Senior Researcher

+46 10 228 42 99
magnus.sahlgren@ri.se

Läs mer om Magnus