Dokumentets rejse fra fil til svar

En 80-siders lejekontrakt lander i systemet. Kort efter stiller en advokat et spørgsmål om depositumvilkår. Svaret kommer med kildehenvisning til præcis det afsnit, der er relevant.

Hvad sker der i mellemtiden? Processen løber igennem tre faser og syv trin — her er den trin for trin.

Fase 1: Indsamling

Systemet holder konstant øje med dokumentmappen. Ikke på kommando — det sker automatisk. Dukker en ny fil op, behandles den med det samme. Opdateres et eksisterende dokument, genbehandles det fra bunden. Slettes det, forsvinder det fra arkivet.

Når en fil er registreret, skal dens tekst ud. Det er mere kompliceret end det lyder, fordi mennesker gemmer information i alt muligt: PDF, Word, Excel, PowerPoint, scannede dokumenter og lydoptagelser. Systemet bruger tre forskellige værktøjer afhængig af hvad det møder — Docling til strukturerede dokumenter, OCR til scannede sider, og Whisper til lyd. Alle stier ender det samme sted: ren tekst med struktur bevaret.

Fase 2: Bearbejdning

Ren tekst er ikke nok til søgning. En AI-model kan ikke arbejde med et 80-siders dokument som én blok — det er for stort. Teksten skæres i bidder, typisk ét afsnit ad gangen, max 512 ord. Systemet respekterer sætningsgrænser og husker hvilken overskrift hver bid tilhører, så konteksten aldrig går tabt.

Derefter sendes hver bid til OpenAI, som konverterer teksten til 1.536 tal. De tal beskriver meningen bag teksten — ikke bogstaverne, men det de peger på. "Depositum" og "sikkerhedsstillelse" ender tæt på hinanden i det talrum, fordi de juridisk set betyder det samme. Det er på den måde systemet forstår indhold.

Teksten og tallene gemmes i Supabase med et særligt søgeindeks, HNSW, der gør det muligt at gennemsøge millioner af bidder på få millisekunder.

Fase 3: Genfinding

Når et spørgsmål stilles, kører systemet to søgespor på én gang. Det ene søger på mening og finder bidder der handler om det samme, selv om ordene er helt forskellige. Det andet søger på de præcise ord og finder lovtekst og juridiske termer. De to spors resultater fusioneres via RRF — en metode der kombinerer begge rangeringer og giver ekstra vægt til bidder der scorer højt i begge spor.

Af de 15 bedste kandidater vælges de fem endelige resultater — men ikke alle fem fra samme dokument. Systemet sikrer bredde på tværs af kilder, så svaret ikke domineres af én enkelt afgørelse.

Vil du se et enkelt trin nærmere? Start med indsamling og udtrækking — det er hvad der sker fra en fil lander til teksten er klar.

Dokumentets rejse fra fil til svar

Dokumentets rejse fra fil til svar

Fase 1: Indsamling

Fase 2: Bearbejdning

Fase 3: Genfinding

Lad os tage en snak.