AI ger oss möjligheten att lyssna till vår biologiska mångfald

John Martinsson, forskare maskininlärning

Artikeln publicerades i nyhetsbrevet Om AI maj 2022

Allt fler biologer och ekologer använder sig av ljudinspelningar som ett verktyg för att mäta vår biologiska mångfald. Inspelningar ger en möjlighet att både lyssna till naturen och att arkivera vad den säger - att ge djuren en röst.  Området kallas ekoakustik och här har AI visat sig vara mycket användbar för att gå igenom och tolka stora mängder ljuddata.

Som en följd av människans utbredning och utveckling riskerar vi att förlora en central del av våra naturliga system: ett rikt och mångfaldigt djur och växtliv. Det är viktigare än någonsin att övervaka och förstå människans påverkan på ekosystemen och AI kan bli ett viktigt verktyg för detta.

Ger djuren en röst

Ett exempel där forskare använder ljudinspelningar som ett verktyg för att mäta biologisk mångfald finns i Australien. Australienska akustiska observatoriet har som mål att genom strategisk placering av akustiska sensorer övervaka ljudlandskapen på en nationell nivå. Här arkiveras och delas data öppet för att lägga grunden för framtida forskning och beslutsfattande. Det australiensiska ljudlandskapet ger en evidensgrund för storskaliga och långsiktiga studier som kan ge en bättre förståelse av utvecklingen av landets ekosystem. 

Arbetet med att lyssna igenom och tolka ljud från ljudlandskap är mycket tidskrävande. För studier över längre tidsperioder är det nödvändigt att automatisera denna process och här har AI visat sig vara mycket användbart. Fältet är under stark utveckling och gynnas av ökad tillgång till billiga akustiska sensorer som AudioMoth för datainsamling och kostnadseffektiv beräkningskraft för analys.

AI kan efterlikna våra sinnen

Vi människor gör oss varse om vår omgivning genom våra sinnen syn, hörsel, smak, lukt och känsel vilkas intryck tolkas av vår hjärna och registreras som objekt, händelser eller upplevelser.  När vi är ute i skogen och hör ett kvittrande melodiskt läte kan vi direkt registrera detta som en fågel. Informationen tas in via vårt hörselorgan och tolkas sedan av de delar i vår hjärna som utgör systemet för auditiv perception. Det vi uppfattar som ljud är i grunden vågformade variationer i tryck som registreras av våra hörselorgan. Det kan ses som en summa av sinusvågor med olika frekvenser där den upplevda ljudstyrkan, eller energin, från en frekvens bestäms av dess amplitud – det vill säga storleken på variationen i trycket.

Artificiell intelligens har visat sig vara ett kraftfullt verktyg för att efterlikna denna typ av perception i en dator. För att registrera fågeln som sjunger i skogen kan man idag göra en ljudinspelning av lätet och sedan låta en datadriven modell göra en klassificering av inspelningen.

Datorseende driver maskinhörsel

Sedan Alex Krizhevsky, Ilya Sutskever och Geoffrey Hinton för tio år sedan visade potentialen av djupinlärning för bildanalys genom modellen AlexNet har området datorseende varit en drivande kraft inom utvecklingen av metoder inom AI. Utvecklingen har lett till att det nu finns en mängd etablerade metoder för datorseende som vi kan dra nytta av vid utvecklingen av AI-metoder för analys av ljudlandskap. 

För att kunna applicera metoder utvecklade för datorseende på problem inom maskinhörsel så transformerar man ljudvågen till en tidsfrekvensbild som innehåller information om hur stor energi det finns hos olika frekvenser i ljudet och hur detta varierar över tid.

Det är också möjligt att modellera ljudvågen direkt och därmed minska antaganden om vad som är en bra transformation av data och istället låta modellen lära sig detta. Det här är möjligt om man har tillräckligt mycket annoterad träningsdata och beräkningskraft. Utan tillräckliga mängder annoterad träningsdata kvarstår dock transformeringen till tidsfrekvensrummet som fortsatt viktig. 

Det är sällan annoterad data finns i tillräckliga mängder och man behöver därför göra så mycket som möjligt med tillgänglig ljuddata. Det blir därför viktigt att utveckla nya inlärningssignaler som inte kräver kostsam annotering från en expert. Genom att utnyttja kända strukturer i ljuddata är det möjligt att genom så kallad självövervakad inlärning träna AI-modeller utan annoterad träningsdata. Ett exempel är när modeller tränas i att känna igen ljudsegment från en inspelning genom att göra jämförelser med en annan med hjälp av en kontrastiv träningssignal. Även om det inte ersätter behovet av annoterad data kan detta hjälpa oss att analysera data som saknar annoteringar.

Historiska ljudarkiv

Den tekniska utvecklingen ger oss visionen om att kunna arkivera och lagra inspelningar av ljudlandskap med allt högre upplösning i tid och rum. Arkiven kan sedan ligga till grund för en större förståelse för hur vi människor påverkar ekosystem, hur olika djurpopulationer rör sig, vilken utbredning de har och även om de ökar eller minskar. Billiga och mer tillgängliga ljudsensorer möjliggör skapandet av ett sådant historiskt ljudarkiv och AI blir ett viktigt analysverktyg.

Kontaktperson

John Martinsson

Junior Forskare

Läs mer om John

Kontakta John