Som så mange andre ble jeg først oppmerksom på mulighetene som ligger i dagens store språkmodeller da ChatGPT ble lansert i november 2022. I ukene etterpå oppdaget jeg at det i tillegg til denne chat-løsningen fantes et API som lot oss få tilgang til den store språkmodellen som lå bak ChatGPT. Gjennom den kunne man sende tekstfiler til modellen med en instruks og få en respons tilbake. Dette syntes å være løsningen på et problem som jeg hadde.
Problemet var at jeg hadde en stor mengde personbiografier som jeg ønsket å bruke som grunnlag for en registrering av begivenheter i en database. Jeg tenkte straks at her lå en mulighet: at jeg kunne sende en serie med biografier til den store språkmodellen og få tilbake linjer med formaterte data i CSV-format som jeg deretter kunne importere i databasen.
Jeg satte derfor i gang i januar 2023 og fikk GPT-3 til å kode hele dansk biografisk leksikon. Et enkelt python skript sendte de enkelte biografiene som tekstefiler til APIet og skrev svaret i en lang CSV-fil. Dette fungerte, kostet ikke mer enn 1200 kroner for 20 bind, men inneholdt såpass mange feil at jeg ikke faktisk kunne bruke dataene uten å gjøre en stor jobb med å redigere dem. En annen utfordring var at mange av filene var for lange for kontekstvinduet og førte til feil som gjorde at prosessen stoppet og måtte starte på nytt etter at teksten var forkortet eller fjernet. Likevel var det her det begynte for meg: det var åpenbart at med mere arbeid ville jeg kunne lage et svært arbeidsbesparende system som ville la meg håndtere langt større datamengder enn jeg kunne klare på egenhånd, og mere enn jeg ville kunne få midler til å lønne vitenskapelige assistenter til å gjøre.
Fem måneder senere, i juni 2023, satt jeg på mitt kontor i Lyon og arbeidet med en nyere modell, GPT-3.5. Denne viste seg å være langt kraftigere og langt mer presis enn GPT-3. Grunnprinsippet for min bruk var det samme. Jeg programmerte i Python for å sende en serie med små tekstfiler som ikke var for store for kontekstvinduet og fikk tilbake dataene som ble skrevet i en CSV-fil som jeg kunne importere i databasen. Feilmengden var nå kraftig redusert, men fortsatt så stor at jeg var nødt til å gjøre en mindre, men fortsatt relativt omfattende redigeringsjobb for å kunne ta i dem bruk. Ikke minst lå arbeidet i å lese svarene svært nøye, for når feilene ble stadig færre ble det mere krevende å finne dem, gjemt som de var i en stor mengde riktig informasjon.
I løpet av høsten 2023 skjedde det to ting. Først kunne vi begynne å fin-tune både åpne modeller og OpenAIs GPT-3.5. Jeg begynte med den siste Dette ga umiddelbart svært mye bedre resultater. Deretter begynte jeg å utforske muligheten for å fin-tune noen av Metas modeller som er åpne, fritt tilgjengelige og som man kan kjøre på sin egen maskinvare. Disse trengte en litt mer omfattende fin-tuning enn OpenAIs modeller, men har likevel vist seg å være i stand til å levere resultater som er fullt ut brukbare.