Sådan finder systemet det rigtige svar

Det her er den fjerde og sidste post i serien om Effektiv Database. Vi har fulgt rejsen fra dokumentupload og strukturering gennem indsamling og udtrækking, videre til chunking og indlejring. Nu er spørgsmålet stillet.

"Hvornår kan en sælger holdes ansvarlig for uoplysninger om boligens stand?" Systemet har millisekunder til at finde de mest relevante afsnit fra tusindvis af dokumenter. Problemet er at juridisk sprog varierer. Samme princip kan formuleres som "manglende oplysningspligt", "culpa", "fejl og mangler" eller "uretmæssig tilbageholdelse af information". Et system der kun matcher ord ville gå glip af halvdelen af de relevante afsnit.

To søgespor på én gang

Systemet kører to parallelle søgninger, hver med sit eget fokus.

Det første spor er vektorsøgning. Spørgsmålet konverteres til de samme 1.536 tal som dokumentbidderne, og systemet finder de bidder hvis tal ligger tættest på. Det er søgning på mening — og det finder relevante afsnit selv om de ikke indeholder et eneste ord fra spørgsmålet.

Det andet spor er fuldtekstsøgning. Den søger på de præcise ord og juridiske termer i spørgsmålet og finder lovtekst og afgørelseskonklusioner med konkret ordlyd.

Hvert spor returnerer sine 15 bedste kandidater. Tilsammen har systemet op til 30 kandidatbidder at arbejde med — nogle dukker op i begge spor, andre kun i ét.

RRF sætter dem i rækkefølge

Nu er udfordringen: to rangeringer, én liste.

Reciprocal Rank Fusion (RRF) løser det ved at give hver bid point fra begge spor. En bid der scorer højt i begge — rammer på både mening og præcise ord — rangeres markant højere end en der kun er stærk i ét. En bid der er semantisk stærk men ikke har ordmatch kommer med, bare lidt lavere. Begge typer er repræsenteret, men systemet prioriterer dem der er stærke på begge parametre.

Resultatet er én sammenvejet liste af de 15 bedste kandidater.

Fem resultater, fra forskellige dokumenter

Fra de 15 vælges de fem endelige resultater. Men med én bevidst begrænsning: systemet penaliserer let, når en bid fra et dokument allerede er valgt. Den næste bid fra samme dokument får -0,1 på sin score.

Det betyder ikke at dokumentet fravalges. Det betyder at hvis et andet dokument også har en stærk bid, prioriteres bredden. De fem endelige resultater kommer fra forskellige dokumenter — ikke alle fem fra den samme 80-siders afgørelse, selv om den måske er den mest relevante enkeltvis.

Brugeren modtager fem præcise afsnit, rangeret fair på tværs af mening og ordlyd, med kildehenvisning til præcis det afsnit de stammer fra. I juridisk arbejde er det afgørende at systemet viser sit arbejde — et forkert svar med selvsikker tone er langt farligere end ingen svar.

Sådan finder systemet det rigtige svar

Sådan finder systemet det rigtige svar

To søgespor på én gang

RRF sætter dem i rækkefølge

Fem resultater, fra forskellige dokumenter

Lad os tage en snak.