Kungliga bibliotekets (KB) specialavdelning för artificiell intelligens håller på att utveckla en AI-modell. En hårddisk har nyss anlänt till ”labbet”. Den innehåller digitaliserade inspelningar av gamla riksdagsanföranden
– Ett utmärkt träningsmaterial för att träna tal-till-textmodeller, säger Leonora Vesterbacka som är Senior Data Scientist på KB.
Samlar på dialekter
KB försöker nu in massor av exempel på olika dialekter, brytningar och andra udda sätt att tala. Syftet är att tillhandahålla en AI-modell som är öppen och fri att använda för alla som vill göra tal-till-texttjänster på svenska.
– Till exempel att diktera och transkribera journaler inom sjukvården, säger Leonora Vesterbacka.
100 år gamla inspelningar
KB har inlett ett samarbete med Institutet för språk- och och folkminnen (Isof) i Uppsala. Här finns tiotusentals timmar inspelat tal arkiverat. De äldsta inspelningarna är över 100 år gamla.
– Det finns ju gamla människor kvar som kanske behöver ringa in ett talsvar till sjukhuset eller beställa något via en telefontjänst, säger Isofs arkivchef Annette Torensjö.
Saknar utländsk brytning
Tjocka dialekter finns det gott om i arkiven. Värre är det med material med svenskar som inte har svenska som förstaspråk.
– Det går inte att ha en transkriberingstjänst som ska funka för alla Sveriges invånare om den bara fungerar för de som pratar rikssvenska, säger Leonora Vesterbacka.
Hör när SVT försöker låta AI:n diktera skånska i klippet.