Foto: ICIJ

Så använde SVT AI för att leta i läckan

Uppdaterad
Publicerad

Hur skapar man ordning i kaos? Man tar hjälp av artificiell intelligens. När internationella journalistnätverket ICIJ behövde hjälp med att analysera dokumenten i den amerikanska bankläckan blev det möjligt för SVT:s datajournalister att använda en ny och avancerad metod för att hitta och strukturera information.

När en bank misstänker att något inte står rätt till ska de upprätta en rapport, en så kallad Suspicious Activity Report, SAR, eller misstankerapport på svenska. Rapporten skickas till amerikanska myndigheten för utredning av finansbrott, FinCen. Rapporterna följer ofta ett liknande mönster, men under projektet stod det klart att olika banktjänstemän skriver rapporterna på olika sätt. Gemensamt för alla rapporter är dock att man beskriver ett urval av de misstänkta transaktionerna i löpande text.

För alla medlemmar i projektet, svenska såväl som utländska, var det av stort intresse att skapa en databas över alla kunder, banker och transaktioner som nämndes i de dryga 2000 rapporter som ingick i läckan. SVT:s datajournalistikteam försökte hitta ett sätt att kunna identifiera text i varje misstankerapport – och från den texten sedan extrahera de olika delarna, som exempelvis bolag eller privatpersoner som var avsändare och mottagare, kontonummer, vilka banker som skickade eller tog emot transaktionen, hur mycket pengar som skickades och när transaktionerna skedde.

Program processar dokumenten

SVT:s datajournalister valde att använda en teknik som kallas maskininlärning, en sorts artificiell intelligens där man först gör en modell. I modellen ingår ett litet antal dokument som man går igenom manuellt och delar upp texten i de olika beståndsdelarna, alltså sändare, mottagare, bank mm. Dataprogrammet får sedan lära sig att hitta den relevanta informationen genom att träna på modellen. När resultatet är tillräckligt bra låter man programmet processa de övriga dokumenten.

Det första man lärde programmet var att hitta de meningar som sedan skulle delas upp. Definitionen var att meningen skulle innehålla minst en avsändare eller en mottagare samt ett belopp. För att optimera så valdes några transaktioner ut och journalisterna gick tillbaka till originaldokumentet och utvärderade vad programmet hade kommit fram till. Programmet skrevs och anpassades sedan efter varje sådan kontroll. Efter detta steg lärde man också programmet att identifiera de olika beståndsdelarna – och även här gjorde man kontroller tillbaka till originaldokumentet och finjusterade programmet efter dessa kontroller.

Metoden hjälpte att hitta relevanta dokument

Slutresultat blev en lista över 13 500 transaktioner med alla företag, banker, kontonummer, belopp och datum som programmet hittade bland misstankerapporterna. Dataprogrammet identifierade nära 19 000 olika banker, företag och organisationer bland rapporterna. Programmet var inte korrekt till 100 procent men sparade ändå väldigt mycket tid för de journalister som ville sammanställa alla transaktioner för ett visst företag, eller en viss bank. Via listan kunde de enkelt hitta de dokument som var relevanta för deras granskning.

Så arbetar vi

SVT:s nyheter ska stå för saklighet och opartiskhet. Det vi publicerar ska vara sant och relevant. Vid akuta nyhetslägen kan det vara svårt att få alla fakta bekräftade, då ska vi berätta vad vi vet – och inte vet. Läs mer om hur vi arbetar.