När en bank misstänker att något inte står rätt till ska de upprätta en rapport, en så kallad Suspicious Activity Report, SAR, eller misstankerapport på svenska. Rapporten skickas till amerikanska myndigheten för utredning av finansbrott, FinCen. Rapporterna följer ofta ett liknande mönster, men under projektet stod det klart att olika banktjänstemän skriver rapporterna på olika sätt. Gemensamt för alla rapporter är dock att man beskriver ett urval av de misstänkta transaktionerna i löpande text.
För alla medlemmar i projektet, svenska såväl som utländska, var det av stort intresse att skapa en databas över alla kunder, banker och transaktioner som nämndes i de dryga 2000 rapporter som ingick i läckan. SVT:s datajournalistikteam försökte hitta ett sätt att kunna identifiera text i varje misstankerapport – och från den texten sedan extrahera de olika delarna, som exempelvis bolag eller privatpersoner som var avsändare och mottagare, kontonummer, vilka banker som skickade eller tog emot transaktionen, hur mycket pengar som skickades och när transaktionerna skedde.
Program processar dokumenten
SVT:s datajournalister valde att använda en teknik som kallas maskininlärning, en sorts artificiell intelligens där man först gör en modell. I modellen ingår ett litet antal dokument som man går igenom manuellt och delar upp texten i de olika beståndsdelarna, alltså sändare, mottagare, bank mm. Dataprogrammet får sedan lära sig att hitta den relevanta informationen genom att träna på modellen. När resultatet är tillräckligt bra låter man programmet processa de övriga dokumenten.
Det första man lärde programmet var att hitta de meningar som sedan skulle delas upp. Definitionen var att meningen skulle innehålla minst en avsändare eller en mottagare samt ett belopp. För att optimera så valdes några transaktioner ut och journalisterna gick tillbaka till originaldokumentet och utvärderade vad programmet hade kommit fram till. Programmet skrevs och anpassades sedan efter varje sådan kontroll. Efter detta steg lärde man också programmet att identifiera de olika beståndsdelarna – och även här gjorde man kontroller tillbaka till originaldokumentet och finjusterade programmet efter dessa kontroller.
Metoden hjälpte att hitta relevanta dokument
Slutresultat blev en lista över 13 500 transaktioner med alla företag, banker, kontonummer, belopp och datum som programmet hittade bland misstankerapporterna. Dataprogrammet identifierade nära 19 000 olika banker, företag och organisationer bland rapporterna. Programmet var inte korrekt till 100 procent men sparade ändå väldigt mycket tid för de journalister som ville sammanställa alla transaktioner för ett visst företag, eller en viss bank. Via listan kunde de enkelt hitta de dokument som var relevanta för deras granskning.