De siste femti årene har historikere brukt databaser for å lagre og systematisere informasjon om fortiden. Det har vært en rivende utvikling fra hullkort til skybaserte løsninger, men gjennom det hele har det vært mennesker som fortolket og kodet dataene som ble lagret i databasene. Slik er det ikke lenger: nå kan vi bruke maskinlæring til å velge ut, kode og registrere dataene så snart de foreligger i maskinlesbar form. Hva som er maskinlesbart er også i en rivende utvikling, med stadig bedre systemer for lesing av håndskrift og forskjellige gamle typer trykt materiale med ulike fonter og språklige varianter.
I dag har jeg publisert to modeller av kunstig intelligens – store språkmodeller – trent for forskning på norsk historie. Begge modellene er basert på Metas CodeLlama-serie. Disse modellene løser et problem, nemlig hvordan vi kan få den strukturerte informasjonen som ligger i gamle biografiske leksika inn i moderne SQL-databaser. I praksis er dette en oppgave som passer svært godt for de store språkmodellene, fordi de er fremdragene nettopp til å produsere og omskape tekst. Det vi snakker om her er tross alt å ta tekst, vanligvis skrevet på 1800-tallet, finne de daterbare, konkrete begivenhetene og skrive dem ut på en strukturert, systematisk måte slik vi vil ha dem i en database. I tillegg har vi her formatert datoene etter systemet fra Fichoz, slik jeg har gjort rede for et annet sted.
Til dette har jeg brukt tekster som er falt i det fri, eller som har en lisens som tillater slik bruk. Totalt er det snakk om nesten 400 biografier på dansk, norsk, svensk, tysk, nederlandsk, engelsk og fransk. I sum har dette vært nok materiale til å kunne lære opp en serie modeller til å produsere tilfredsstillende resultater. Det er de to første av disse jeg publiserer i dag.
Arbeidet med å lage datasettene disse modellene er trent på er ca. tre måneders fulltidsarbeid. Den største utfordringen har vært å bli kvitt halusineringene, altså at modellen halusinerer når den ikke har tilstyrtelig informasjon og derfor forsøker å finne opp ting slik som for eksempel fødselsdator. Disse modellene som jeg publiserer nå er, så vidt jeg har klart å bringe på det rene gjennom testing, fri for halusinasjoner. Den største av dem (34B) er helt klart den beste. Den skriver bedre, den oversetter slik den skal fra andre språk til dansk, og den forstår innviklede og kompliserte setninger slik som man ofte finner i gamle leksikonartikler langt bedre enn den mindre modellen (13B). Til gjengjeld er den mindre modellen svært rask, god nok i mange tilfeller og lettere å kjøre på billigere maskinvare enn den større modellen.
Jeg har gitt begge modellene versjonsnummer 0,1 og jeg ser ikke bort fra at jeg vil oppdatere dem med enda bedre utgaver når jeg har produsert et større materiale treningsdata. Men ettersom det tok meg tre måneder å lage dataene til disse, er det klart at det er grenser for hvor mye mer tid jeg kan bruke på akkurat dette, når disse modellene allerede i dag, etter min mening, er gode nok til å brukes.
Senere i år kommer jeg til å publisere flere nye modeller, og det første jeg kommer til å fokusere på er modeller som leser 1500- og 1600-talls dansk slik at jeg kan bruke dem til en serie forskjellige prosjekter, spesielt til analyse av tingbøker og lensregnskaper. Dette blir bra!