Legal Tools
Logg inn

Teknisk Vist · Hvordan AI-en beskytter dokumenter

Hvordan Sladding vet hva som skal erstattes.

En full gjennomgang av to-pass sladdingsprosessen, regional mønstergjenkjenning, enhetsklassifisering, utdataformatgenerering og personvernarkitektur.

2 behandlingspass
4 regionale regelsett
3 utdataformater
2 motoralternativer

Arkitektur

To pass. Deterministisk først, intelligent deretter.

Rørledningen er bevisst lagdelt — Pass 1 fanger alt som kan fanges av regler alene; Pass 2 håndterer kontekstavhengige enheter som regler ikke kan identifisere.

Pass 1 · PHP / regex

Oppdage & erstatte kjente mønstre

Et deterministisk regex-pass kjøres før noen LLM-anrop. Det skanner hele inngangen for identifikatorer som matcher den aktive regionale profilen:

  • Norsk fødselsnummer (11 sifre) og D-nummer
  • Telefonnumre i +47-format, norsk mobil (4xx/9xx) og fasttelefon
  • E-postadresser (RFC 5322 forenklet)
  • Norske postadresser: gatenavn + nummer + postnummer + poststed
  • Ytterligere mønstre per region (IBAN, CPR, EMD-numre, SSN, osv.)

Mønster-matchede symboler erstattes umiddelbart og merkes som allerede sladdede slik at LLM-passet ikke dobbeltbehandler dem.

Pass 2 · gpt-4o-mini / gpt-4o

Søk etter navngitte enheter

LLM-en leser hele dokumentet (med mønster-erstattede symboler synlige som plassholdere). Den identifiserer alle gjenværende navngitte enheter:

  • Personnavn — fornavn, etternavn eller fullt navn; håndterer norske, samiske og utenlandske navn
  • Organisasjoner — selskaper, myndigheter, frivillige organisasjoner, religiøse organer, idrettslag
  • Steder — gater, nabolag, kommuner, fylker, land
  • Fødselsdato og aldersfraser (når enhetstype Datoer er avkrysset)

Hver matchet enhet klassifiseres etter type og rolle (FAR, MOR, DOMMER, SAKSBEHANDLER, osv.) og erstattes i henhold til valgt utdataformat.

Pass 3 · PHP post-processor

Etterbehandling og aliassubstitusjon

Etter begge passene anvender PHP endelige transformasjoner:

  • Offisielt pass — hvis Behold offisielle navn er avkrysset, får navngitte dommere, eksperter og saksbehandlere merkede koder ([DOMMER: Andersen])
  • Aliassubstitusjon — brukerdefinerte aliaser brukes som et siste regex-erstatning
  • Unntak for navnbeskyttelse — eventuelle symboler som matcher et unntaksnavn gjenopprettes til den opprinnelige verdien
  • Pseudonymgenerering — hvis Pseudonymutdata er valgt, erstattes alle rollekoder med plausible norske navn, telefonnumre og adresser

Sluttutdataene settes sammen og returneres som ren tekst. DOCX-eksporten konverterer dette til et OOXML-dokument via PHP ZipArchive.

Regionale mønsterssett

Fire regioner. Hver legger til mønstre fra den siste.

Regionale profiler er kumulative — Europeisk legger til Nordisk, EMD legger til Europeisk, Global legger til EMD.

Region Dekket mønstre Notater
Nordic ★ Fødselsnummer, D-number, +47 phone, email, Norwegian address Standard for norske dokumenter. Alle lokale ID-formater.
European + IBAN, Swedish personnummer, Danish CPR, Finnish HETU, UK NI Grenseoverskridende EU-dokumenter, nordiske naboer.
ECHR + ECHR application numbers, DOB phrases, ECtHR case references Klager til Den europeiske menneskerettighetsdomstolen.
Global + US SSN, driver's licence formats, generic document numbers Dokumenter som involverer ikke-europeiske parter eller jurisdiksjoner.

Enhetsklassifisering

Hva LLM-en identifiserer og hvordan den merker hver type.

Navngitte enhetstyper

Enhet Hva som kvalifiserer Standard utdata (kontekstuell)
person Ethvert personnavn — fornavn, etternavn eller fullt navn [ROLLE] — utledet fra kontekst (FAR, MOR, DOMMER, osv.)
organisation Selskaper, etater, myndigheter, institusjoner, klubber [ORG: delvis navn] eller generisk [ORG]
place Gater, tettsteder, kommuner, fylker, land, regioner [STED] eller [BY] eller [ADRESSE]
date Fødselsdatoer, aldersreferanser, personlige datofraser [FØDSELSDATO] eller [ALDER: xx]

Sammenligning av utdataformat

Format Person eksempel Org eksempel
Contextual ★ [FAR] eller [DOMMER: Andersen] [BARNEVERNET: Oslo] eller [ORG]
Generic [PERSON] [ORG]
Pseudonym Ola Nordmann (generert) Nordnes AS (generert)

Motorer

To motorer, ett sladdskjema.

Begge motorer produserer det samme sladdutdataskjemaet. Motorvalg påvirker nøyaktigheten på komplekse dokumenter og kreditt-kostnad.

Motor Modell Forsinkelse Best for
Azure gpt-4o-mini ★ gpt-4o-mini (Azure West Europe) ~15 s Standard. De fleste dokumenter, enkelt emne, klar formatering.
Azure gpt-4o gpt-4o (Azure West Europe) ~45 s Komplekse dokumenter med mange navngitte parter, overlappende roller eller forringet kildetekst.

Personvern & sikkerhet

Behandles i minnet. Lagres bare når du sier det.

Personvern ved design

Se det fungere på dine dokumenter.

Gratis for Do Better Norge-medlemmer.

Logg inn for å bruke Sladding → Registrer gratis Brukerveiledning