Hoppa till huvudinnehåll
RISE logo

AI utmanande för producent av konfliktdata

Vid Gamla torget i Uppsala, precis bredvid Fyrisån, finns Institutionen för freds- och konfliktforskning vid Uppsala universitet. Bland institutionens verksamheter finns Uppsala konfliktdataprogram (UCDP), världens ledande producent av konfliktdata och den mest använda datamängden i forskning om väpnat våld och dess konsekvenser. I ett projekt tillsammans med RISE undersöker UCDP möjligheten att automatisera sin verksamhet med hjälp av tillämpad AI.

Kristine Eck
Kristine Eck, lektor vid Uppsala Conflict Data Program

– Våra analytiker gå igenom ungefär 50 000 nyheter varje år och registrerar mellan 10 000 och 12 000 händelser i databasen, berättar Kristine Eck, lektor vid UCDP.

Kvaliteten på datan som produceras vid UCDP är i världsklass; till exempel är alla större rapporter från olika FN-organ som studerat konsekvenser av väpnat våld under senare år baserade på data från UCDP, och datan ingår i Världsbankens utvecklingsindikatorer och utgör källan till Världshälsoorganisationens (WHO) mått på konfliktmortalitet. Världen över förlitar sig studenter, journalister, forskare och internationella organisationer på UCDP för att få systematisk och uppdaterad information om världens konflikter.

Samarbete med ledande aktör

I den typ av arbete som UCDP bedriver, att analysera nyheter för att sedan kategorisera och lagra dessa i en strukturerad databas, väcks frågan om automatisering förr eller senare. Så även vid UCDP.

– Vi har fått frågor om automatisering, berättar Kristine Eck. Men så som vår data och verksamhet ser ut har tekniken inte funnits tidigare. Vi är inte helt säkra på att den gör det nu heller, men för att ta reda på det behövde vi samarbete med den som är bäst på området.

Kvalitetskravet är orubbligt

Utmaning för RISE

UCDP vände sig till RISE med frågorna ”Går det att automatisera det vi gör?” och ”Kommer någon annan kunna göra något liknande?”. Med rapporter från olika källor med varierande trovärdighet och relevans, och ett läge där flera händelser ibland rapporteras i samma artikel var det minst sagt en utmaning som RISE ställdes inför.

– Det är framför allt två saker som innebär utmaningar om man ser det ur ett maskininlärningsperspektiv; spännvidden av den information som UCDPs analytiker tar i beaktande när de annoterar texterna, samt kvaliteten på data, förklarar Fredrik Olsson, fd senior forskare på RISE. Varje händelse som processas av analytikerna på UCDP beskrivs i termer av ett tjugotal attribut; var händelsen ägde rum, vilka som var inblandade och hur många personer som dog. Varje attribut kan anta allt från tre till drygt 4000 värden. Det gör att det finns mer eller mindre ont om exempel för en maskin att lära sig ifrån. Den andra utmaningen, datakvaliteten, har att göra med hur arbetsprocessen och rådata ser ut.

Fokus på datakvalitet

För kvaliteten på datan är det som UCDP lyfter fram som absolut kritiskt och något som inte får tummas på.

– Kvalitetskravet är orubbligt, säger Kristine Eck. Vår data används av FN och Världsbanken, och om det skulle vara så att ett event i databasen är felkodat kan det få stora politiska konsekvenser.

Samarbetet med RISE har av den här anledningen främst haft fokus på de bredare frågorna, inte på möjligheter att förenkla för UCDP och dess medarbetare.

– Vi vill framför allt säkerställa att vi inte blir omsprungna av tekniken, avslutar Kristine Eck.

Publicerad: 2019-11-08
Joakim Nivre

Kontaktperson

Joakim Nivre

Forskare

Läs mer om Joakim

Kontakta Joakim
CAPTCHA This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.

* Obligatoriskt Genom att skicka in formuläret behandlar RISE dina personuppgifter.