How Korrespond works — Hard-RAG, EU-hosted Claude, 3-pass pipeline

Architektura

Trzy etapy. Każdy z wyraźnym zadaniem.

Proces jest celowo sekwencyjny — Etap 1 jest tani i szybki (gpt-4o-mini); Etap 2 jest drogi i uruchamia się tylko, jeśli sytuacja jest wystarczająco jasna; Etap 3 jest opcjonalny i uruchamiany przez użytkownika.

Pass 1 · gpt-4o-mini

Klasyfikacja i sprawdzenie luk

Analizuje dane wejściowe i zwraca uporządkowaną klasyfikację JSON:

summary — one-sentence case summary
parties — identified actors
applicable_acts — relevant statute sets
missing_facts[] — gaps that would hurt draft quality
suggested_goal — inferred goal if none stated

Jeśli missing_facts jest niepuste → emituje bramkę wyjaśniającą. Żaden kredyt nie jest odejmowany, dopóki nie rozpocznie się Etap 2.

Pass 2 · gpt-4o

Pobierz → szkicuj → sprawdź → przetłumacz

Cztery podkroki, każdy weryfikowany przed kontynuacją:

Pobierz: hybrydowe wyszukiwanie gęste + BM25 w obrębie ustalonych fragmentów korpusu; zwrócone 8 najlepszych fragmentów z identyfikatorami źródeł
Sporządź: gpt-4o generuje pismo używając [CITE:N] tokenów odnoszących się tylko do pobranych identyfikatorów źródeł
Samokontrola: usuwa każdy [CITE:N] token, którego identyfikator źródła nie znajduje się w pobranej puli; oznacza zgodność z terminem/celami/tonem
Przetłumacz: norweski szkic → język roboczy (pojedyncze wywołanie)

Pass 3 · optional

Udoskonalenie formalnej cytacji

Wywołane przez użytkownika (+1 kredyt). Wyszukiwanie w zakresie jurysdykcji, następnie przepisuje cytaty inline na styl formalny i dodaje blok Rettskilder:

Norweski: jf. forvaltningsloven § 17
ECHR: pełna nazwa sprawy, numer wniosku, data, paragraf
Oba: połączone krajowe + ECHR podstawy

Hard-RAG

Każda cytacja § jest weryfikowana przed dotarciem do Ciebie.

Hard-RAG oznacza, że model jest ograniczony do cytowania tylko tego, co pobrał. Żaden numer § nie może pojawić się w ostatecznym szkicu, chyba że odpowiadający fragment źródła został faktycznie znaleziony i pobrany.

Przyjęcie użytkownika + wstępne ustawienia treści

→

Wybór fragmentu korpusu

→

Hybrydowe wyszukiwanie (gęsty wektor + BM25)

→

8 najlepszych fragmentów z identyfikatorami źródeł

Fragmenty wstrzyknięte do promptu gpt-4o

→

Szkic z tokenami [CITE:N] tylko

→

Samokontrola: weryfikacja każdego [CITE:N] rozwiązuje

→

Usuń niezweryfikowane cytaty

Przechodzenie przez samosprawdzanie analizuje każdy [CITE:N] token w projekcie i wyszukuje identyfikator źródła N w pobranej puli. Jeśli nie pasuje — cytat jest usuwany, a akapit jest przepisywany bez niego. Wynik również wskazuje, czy termin został uwzględniony, czy określony cel został osiągnięty oraz czy ton odpowiadał wybranemu chipowi.

Co się dzieje, gdy żaden przepis nie pasuje?

Jeśli żaden fragment z korpusu nie pasuje ściśle do sytuacji, projekt jest tworzony w prostym języku bez odniesień do §. W notatce w wyniku jest napisane: "Brak cytowanych źródeł prawnych — projekt jest w prostym języku (brak dostępnych odniesień do § z korpusu)." To jest zamierzone, uczciwe zachowanie — pusty projekt jest lepszy niż taki z fałszywymi cytatami.

Baza wiedzy

Ponad 220 000 fragmentów w 8 kawałkach korpusu.

Korpus prawny jest podzielony na nazwane kawałki. Każdy preset ciała odbiorcy mapuje na zestaw kawałków, więc wyszukiwanie zawsze jest ograniczone do właściwego obszaru prawa.

220K+ całkowita liczba zindeksowanych fragmentów

8 kawałki korpusu

1,731 decyzje trybunału FNV

23 sprawy rodzinne ECHR w Norwegii

Azure Wyszukiwanie AI (Zachodnia Europa)

Hybrid gęsty wektor + BM25

Kawałki korpusu

child_welfare echr family_core bufdir_guidance norwegian_courts broader_legal dbn_resources hague

Mapowanie presetów ciała → kawałki (przykłady)

Ciało odbiorcy	Załadowane kawałki korpusu
Barnevernet	child_welfare · echr · family_core
Bufdir	family_core · echr · bufdir_guidance
NAV	broader_legal (NAV-loven)
Skole / Barnehage / SFO	broader_legal (opplæringslova / barnehageloven)
Statsforvalteren	child_welfare · broader_legal
Trygderetten / Tingretten	norwegian_courts · broader_legal

Model hostowany w UE

Hostowany w UE Claude, oparty na norweskim tekście prawnym.

EU · AWS Bedrock

EU-hosted Claude

Korrespond działa na hostowanym w UE Claude (AWS Bedrock, region UE), opartym przy każdym zapytaniu na fragmentach pobranych z norweskiego prawa opieki nad dziećmi i prawa administracyjnego. Ograniczony do tego korpusu, a nie odpowiadający z pamięci, pracuje z proceduralnym słownictwem forvaltningsloven: co wywołuje prawo do wysłuchania zgodnie z § 17, co musi zawierać zgodna z prawem decyzja uzasadniona zgodnie z § 24, jak barnevernsloven § 6-3 określa standard najlepszego interesu dziecka.

W pipeline Korrespond hostowany w UE Claude wykonuje syntezę prawną obok Azure gpt-4o. Wyszukiwanie zbiera odpowiednie fragmenty przepisów, gpt-4o buduje strukturę projektu, a Claude tworzy ostateczne rozumowanie prawne w ramach ograniczenia Hard-RAG — gdzie każde odwołanie do § jest weryfikowane względem źródła. Twoje dane pozostają w UE przez cały czas.

Hard-RAG forvaltningsloven barnevernsloven child-welfare corpus Norwegian bokmål output EU Bedrock

Model responsibilities in the pipeline

Zaliczony	Model	Rola
Pass 1 classify	gpt-4o-mini	Szybka strukturalna klasyfikacja + wykrywanie luk
Pass 1 clarify questions	gpt-4o-mini + EU Claude	Generowanie pytań z uwzględnieniem domeny
Pass 2 draft	gpt-4o	Pełna generacja listu w ramach ograniczeń Hard-RAG
Pass 2 self-check	gpt-4o-mini	Weryfikacja cytatów + audyt tonu/celu/terminu
Pass 2 translate	gpt-4o-mini	Norweski → tłumaczenie na język roboczy
Pass 3 refine	gpt-4o	Przepisanie formalnych cytatów + blok Rettskilder

Zaliczony 3 — Udoskonalenie cytatów formalnych

Cytaty gotowe do sądu w dwóch stylach.

Opcjonalny trzeci etap wykonuje wyszukiwanie w zakresie jurysdykcji, a następnie przepisuje szkic z formalnymi cytatami w tekście i aneksem Rettskilder. Obsługiwane są dwa odrębne formaty cytatów:

🇳🇴

Styl cytatów norweskich

Cytaty w tekście używają jf. (z odniesieniem do) oraz oficjalnej nazwy ustawy + sekcji: jf. forvaltningsloven § 17, jf. opplæringslova § 9 A-4, jf. barnevernsloven § 6-3. Numery sekcji są weryfikowane w stosunku do korpusu przed włączeniem.

⚖️

Styl cytatów ECHR

Pełny format cytatów Europejskiego Trybunału Praw Człowieka: nazwa sprawy · numer wniosku · data · izba/Wielka Izba · paragraf. Przykład: Strand Lobben m.fl. mot Norge, EMD-37283/13 (Storkammer, 10.09.2019), § 207. Źródła pobrane z fragmentu korpusu ECHR i HUDOC.

Przykład udoskonalonego wyniku

Refined output showing formal citations including opplæringslova §9 A-4 and EMK artikkel 8

Udoskonalony szkic (norweski + angielski) z opplæringslova § 9 A-4 i EMK artikkel 8 cytatami w tekście.

Zapytania kotwiczące dla trybu ECHR

Dla spraw Barnevernet i Bufdir, proces udoskonalania ECHR uruchamia specyficzne zapytania kotwiczące, które celują w najczęściej cytowane norweskie sprawy rodzinne w korpusie HUDOC:

Strand Lobben m.fl. mot Norge Johansen mot Norge K.O. og V.M. mot Norge Aune mot Norge EMK Art. 8 family life Norway EMK Art. 6 fair trial

Prywatność i bezpieczeństwo

Twoje dokumenty nigdy nie opuszczają twojej sesji.

Prywatność przez projekt

Wszystkie przesłane pliki są ekstraktowane do tekstu w pamięci przy użyciu procesowych narzędzi do obsługi plików PHP. Surowe dane binarne nigdy nie są zapisywane na dysku serwera.
Kontekst sesji (twoja narracja, przesłany tekst, szkice) jest ograniczony do twojej uwierzytelnionej sesji i jest usuwany po zakończeniu sesji.
Azure OpenAI (gpt-4o, gpt-4o-mini) jest skonfigurowane w regionie Europa Zachodnia. Dane przetwarzane przez Azure OpenAI nie są wykorzystywane do szkolenia modeli w ramach domyślnej umowy dla przedsiębiorstw.
Azure AI Search (bnl-legal-search) przechowuje tylko publiczny korpus prawny — ustawy, decyzje trybunałów, wyroki ECHR. Żadne informacje o twojej sprawie nie są przechowywane w indeksie wyszukiwania.
Baza danych wektorów Qdrant przechowuje tylko osadzenia publicznego korpusu — brak danych użytkowników.
Zarejestrowana telemetria: nazwa narzędzia, język, typ wyjścia, liczba przejść, opóźnienie, liczba źródeł. Nie rejestruje się tekstu sprawy, nazw ani odniesień do spraw.

Jak Korrespond wie, co napisać.