Hvordan AI læser organisationens dokumenter

I første del af serien — Dokumentets rejse — så vi hele pipelinen ovenfra. Her handler det om de to første trin: indsamlingen og læsningen af dokumenterne.

Et juridisk firma gemmer dokumenter i alt: PDF, Word, lydoptagelser fra møder, scannede kontrakter fra 90'erne, regneark med kontraktdata. Systemet skal kunne læse det hele — automatisk, løbende, og uden at nogen skal trykke på en knap.

Systemet holder altid øje

Dokumentmappen overvåges konstant. Dukker en ny fil op, behandles den med det samme — uden ventetid. Opdateres et eksisterende dokument, genbehandles hele filen fra bunden, så arkivet aldrig arbejder med forældet information. Slettes en fil, fjernes den fra arkivet.

Det smarte er at systemet kun behandler det der faktisk har ændret sig. En organisation med tusinder af PDF'er kan ikke have at alt genbehandles hver dag. Systemet ved præcis hvad der er nyt og hvad der allerede er kendt.

Tre veje til ren tekst

Når en fil er registreret, skal dens tekst ud. Her møder systemet sin første udfordring: et PDF er ikke bare tekst — det er en sekvens af bytes, billedlag og skrifttyper. Et Word-dokument er XML pakket ind i et zip-arkiv. En lydoptagelse er slet ikke tekst.

Docling er systemets første valg. Den er god til at se forskel på en overskrift og regulær tekst, og den genkender tabeller uden at ødelægge deres layout. Indlæses en kontrakt, beholder den sin artikel-struktur: kapitel, afsnit, paragraf. Systemet ved præcis hvilken del af loven en given tekstbid tilhører.

Når Docling løber ind i et scannet dokument eller en beskadiget PDF, træder PyMuPDF og OCR ind. OCR (optisk karaktergenkendelse) læser bogstaver fra et billede af siden — det er det samme der sker, når man fotograferer en faktura og telefonen genkender teksten. Resultatet er ren tekst, bare hentet ad en anden vej.

Whisper tager sig af lyd. Et teammøde optaget som MP3, et mundtligt memo, en aftale optaget på telefonen — det transskriberes automatisk. Et times møde bliver til et søgbart dokument.

Når systemet løber ind i en væg

Selv med tre veje til tekst er der filer der ikke kan læses. Måske er PDF'en korrupt, eller formatet er noget ingen af værktøjerne forstår.

Her opretter systemet en pladsholder: filens navn og metadata gemmes, men ikke teksten. Søger nogen efter "Smiths kontrakt fra 2023" finder systemet filen på navn — selv om den fulde tekst aldrig blev indlæst.

Nu er dokumenterne i systemet som ren tekst. Næste skridt er at gøre teksten søgbar — hvad der sker med chunking og indlejring.

Hvordan AI læser organisationens dokumenter

Hvordan AI læser organisationens dokumenter

Systemet holder altid øje

Tre veje til ren tekst

Når systemet løber ind i en væg

Lad os tage en snak.