En bitter lekse

Mitt første forsøk på å bruke Llama for historiske databaser var en overveldende suksess: Den konverterte 9.000 biografier (hver på mellom en og ti sider) til nesten 100.000 databaseposter lagret i CSV-filer klare for import til databasen. Feilraten var mindre enn 1 %, langt mindre enn en menneskelig vitenskapelig assistent, og den vanligste feilen var utelatelse av ekteskap, ikke introduksjon av falsk informasjon gjennom hallusinasjoner.

På dette punktet oppdaget jeg at arbeidsflyten min hadde vært mangelfull. Så langt hadde min erfaring vært at prosessen med å importere data til databasen ble gjort mest effektivt ved å importere deler av data – si ti personer om gangen – for å unngå å gå gjennom importprosessen for mange ganger, samtidig som jeg sørget for at de nye dataene var håndterbare når jeg begynte etterbehandlingen: se etter duplikater, legge inn ID-er og lenke poster, osv. Nå var jeg overveldet av så mange poster at det ville ta meg måneder å gå gjennom dem, selv om jeg gjorde det på heltid. Tidligere, med menneskelige vitenskapelige assistenter, ville jeg bruke en time hver dag på å sjekke arbeidet deres. Nå var dette en jobb i seg selv.

Fordi jeg bare hadde latt modellen skrive ut resultatet fra 10 biografier om gangen i tilfeldig rekkefølge, ble det mer tidkrevende å sjekke resultatet mot biografiene når jeg valgte å gjøre det, fordi jeg måtte bevege meg tilfeldig mellom volumer av det biografiske leksikonet. Hvis jeg i stedet hadde sendt resultatet til individuelle filer med samme filnavn som inndataene, kunne jeg kanskje ha designet en arbeidsflyt der en annen LLM sjekket resultatet før jeg gjorde det selv.

Dermed lærte jeg to bitre lekser

  1. Den enorme generative kapasiteten til LLM-er vil skape nytt tidkrevende arbeid for deg, akkurat som det sparer deg for arbeid. Den relative vekten av oppgavene endres etter hvert som du kan overlate noen av dem til LLM-en.
  2. På grunn av dette må du tenke grundig gjennom arbeidsflyten og identifisere fremtidige flaskehalser og muligheter for ytterligere automatisering.​​​​​​​​​​​​​​​​