Teknisk Vist · Hvordan AI-en beskytter dokumenter
En full gjennomgang av to-pass sladdingsprosessen, regional mønstergjenkjenning, enhetsklassifisering, utdataformatgenerering og personvernarkitektur.
Arkitektur
Rørledningen er bevisst lagdelt — Pass 1 fanger alt som kan fanges av regler alene; Pass 2 håndterer kontekstavhengige enheter som regler ikke kan identifisere.
Et deterministisk regex-pass kjøres før noen LLM-anrop. Det skanner hele inngangen for identifikatorer som matcher den aktive regionale profilen:
fødselsnummer (11 sifre) og D-nummerMønster-matchede symboler erstattes umiddelbart og merkes som allerede sladdede slik at LLM-passet ikke dobbeltbehandler dem.
LLM-en leser hele dokumentet (med mønster-erstattede symboler synlige som plassholdere). Den identifiserer alle gjenværende navngitte enheter:
Hver matchet enhet klassifiseres etter type og rolle (FAR, MOR, DOMMER, SAKSBEHANDLER, osv.) og erstattes i henhold til valgt utdataformat.
Etter begge passene anvender PHP endelige transformasjoner:
Sluttutdataene settes sammen og returneres som ren tekst. DOCX-eksporten konverterer dette til et OOXML-dokument via PHP ZipArchive.
Regionale mønsterssett
Regionale profiler er kumulative — Europeisk legger til Nordisk, EMD legger til Europeisk, Global legger til EMD.
| Region | Dekket mønstre | Notater |
|---|---|---|
| Nordic ★ | Fødselsnummer, D-number, +47 phone, email, Norwegian address | Standard for norske dokumenter. Alle lokale ID-formater. |
| European | + IBAN, Swedish personnummer, Danish CPR, Finnish HETU, UK NI | Grenseoverskridende EU-dokumenter, nordiske naboer. |
| ECHR | + ECHR application numbers, DOB phrases, ECtHR case references | Klager til Den europeiske menneskerettighetsdomstolen. |
| Global | + US SSN, driver's licence formats, generic document numbers | Dokumenter som involverer ikke-europeiske parter eller jurisdiksjoner. |
Enhetsklassifisering
| Enhet | Hva som kvalifiserer | Standard utdata (kontekstuell) |
|---|---|---|
person |
Ethvert personnavn — fornavn, etternavn eller fullt navn | [ROLLE] — utledet fra kontekst (FAR, MOR, DOMMER, osv.) |
organisation |
Selskaper, etater, myndigheter, institusjoner, klubber | [ORG: delvis navn] eller generisk [ORG] |
place |
Gater, tettsteder, kommuner, fylker, land, regioner | [STED] eller [BY] eller [ADRESSE] |
date |
Fødselsdatoer, aldersreferanser, personlige datofraser | [FØDSELSDATO] eller [ALDER: xx] |
| Format | Person eksempel | Org eksempel |
|---|---|---|
| Contextual ★ | [FAR] eller [DOMMER: Andersen] |
[BARNEVERNET: Oslo] eller [ORG] |
| Generic | [PERSON] |
[ORG] |
| Pseudonym | Ola Nordmann (generert) | Nordnes AS (generert) |
Motorer
Begge motorer produserer det samme sladdutdataskjemaet. Motorvalg påvirker nøyaktigheten på komplekse dokumenter og kreditt-kostnad.
| Motor | Modell | Forsinkelse | Best for |
|---|---|---|---|
| Azure gpt-4o-mini ★ | gpt-4o-mini (Azure West Europe) |
~15 s | Standard. De fleste dokumenter, enkelt emne, klar formatering. |
| Azure gpt-4o | gpt-4o (Azure West Europe) |
~45 s | Komplekse dokumenter med mange navngitte parter, overlappende roller eller forringet kildetekst. |
Personvern & sikkerhet
Personvern ved design
gpt-4o, gpt-4o-mini) er konfigurert på Vest-Europa regionen. Data behandlet via Azure OpenAI brukes ikke til modelltrening under den standard bedriftsavtalen.Gratis for Do Better Norge-medlemmer.