Legal Tools
Zaloguj się

Pokaz techniczny · Hard-RAG · Dostosowany LLM · 3-etapowy proces

Jak Korrespond wie, co napisać.

Pełne przejście przez proces generacji wzbogaconej o wyszukiwanie, system weryfikacji cytatów, dostosowany model prawny oraz formalny etap poprawy cytatów, który produkuje gotowe do sądu odniesienia.

220K+ indeksowane fragmenty
8 kawałki korpusu
3 przebiegi procesu
gpt-4o model szkicowania

Architektura

Trzy etapy. Każdy z wyraźnym zadaniem.

Proces jest celowo sekwencyjny — Etap 1 jest tani i szybki (gpt-4o-mini); Etap 2 jest drogi i uruchamia się tylko, jeśli sytuacja jest wystarczająco jasna; Etap 3 jest opcjonalny i uruchamiany przez użytkownika.

Pass 1 · gpt-4o-mini

Klasyfikacja i sprawdzenie luk

Analizuje dane wejściowe i zwraca uporządkowaną klasyfikację JSON:

  • summary — one-sentence case summary
  • parties — identified actors
  • applicable_acts — relevant statute sets
  • missing_facts[] — gaps that would hurt draft quality
  • suggested_goal — inferred goal if none stated

Jeśli missing_facts jest niepuste → emituje bramkę wyjaśniającą. Żaden kredyt nie jest odejmowany, dopóki nie rozpocznie się Etap 2.

Pass 2 · gpt-4o

Pobierz → szkicuj → sprawdź → przetłumacz

Cztery podkroki, każdy weryfikowany przed kontynuacją:

  • Pobierz: hybrydowe wyszukiwanie gęste + BM25 w obrębie ustalonych fragmentów korpusu; zwrócone 8 najlepszych fragmentów z identyfikatorami źródeł
  • Sporządź: gpt-4o generuje pismo używając [CITE:N] tokenów odnoszących się tylko do pobranych identyfikatorów źródeł
  • Samokontrola: usuwa każdy [CITE:N] token, którego identyfikator źródła nie znajduje się w pobranej puli; oznacza zgodność z terminem/celami/tonem
  • Przetłumacz: norweski szkic → język roboczy (pojedyncze wywołanie)
Pass 3 · optional

Udoskonalenie formalnej cytacji

Wywołane przez użytkownika (+1 kredyt). Wyszukiwanie w zakresie jurysdykcji, następnie przepisuje cytaty inline na styl formalny i dodaje blok Rettskilder:

  • Norweski: jf. forvaltningsloven § 17
  • ECHR: pełna nazwa sprawy, numer wniosku, data, paragraf
  • Oba: połączone krajowe + ECHR podstawy

Hard-RAG

Każda cytacja § jest weryfikowana przed dotarciem do Ciebie.

Hard-RAG oznacza, że model jest ograniczony do cytowania tylko tego, co pobrał. Żaden numer § nie może pojawić się w ostatecznym szkicu, chyba że odpowiadający fragment źródła został faktycznie znaleziony i pobrany.

Przyjęcie użytkownika + wstępne ustawienia treści
Wybór fragmentu korpusu
Hybrydowe wyszukiwanie (gęsty wektor + BM25)
8 najlepszych fragmentów z identyfikatorami źródeł
Fragmenty wstrzyknięte do promptu gpt-4o
Szkic z tokenami [CITE:N] tylko
Samokontrola: weryfikacja każdego [CITE:N] rozwiązuje
Usuń niezweryfikowane cytaty

Przechodzenie przez samosprawdzanie analizuje każdy [CITE:N] token w projekcie i wyszukuje identyfikator źródła N w pobranej puli. Jeśli nie pasuje — cytat jest usuwany, a akapit jest przepisywany bez niego. Wynik również wskazuje, czy termin został uwzględniony, czy określony cel został osiągnięty oraz czy ton odpowiadał wybranemu chipowi.

Co się dzieje, gdy żaden przepis nie pasuje?

Jeśli żaden fragment z korpusu nie pasuje ściśle do sytuacji, projekt jest tworzony w prostym języku bez odniesień do §. W notatce w wyniku jest napisane: "Brak cytowanych źródeł prawnych — projekt jest w prostym języku (brak dostępnych odniesień do § z korpusu)." To jest zamierzone, uczciwe zachowanie — pusty projekt jest lepszy niż taki z fałszywymi cytatami.

Baza wiedzy

Ponad 220 000 fragmentów w 8 kawałkach korpusu.

Korpus prawny jest podzielony na nazwane kawałki. Każdy preset ciała odbiorcy mapuje na zestaw kawałków, więc wyszukiwanie zawsze jest ograniczone do właściwego obszaru prawa.

220K+ całkowita liczba zindeksowanych fragmentów
8 kawałki korpusu
1,731 decyzje trybunału FNV
23 sprawy rodzinne ECHR w Norwegii
Azure Wyszukiwanie AI (Zachodnia Europa)
Hybrid gęsty wektor + BM25

Kawałki korpusu

child_welfare echr family_core bufdir_guidance norwegian_courts broader_legal dbn_resources hague

Mapowanie presetów ciała → kawałki (przykłady)

Ciało odbiorcyZaładowane kawałki korpusu
Barnevernetchild_welfare · echr · family_core
Bufdirfamily_core · echr · bufdir_guidance
NAVbroader_legal (NAV-loven)
Skole / Barnehage / SFObroader_legal (opplæringslova / barnehageloven)
Statsforvalterenchild_welfare · broader_legal
Trygderetten / Tingrettennorwegian_courts · broader_legal

Model dostosowany

dbn-legal-agent: przeszkolony na norweskim tekście prawnym.

QLoRA fine-tune

dbn-legal-agent

Model QLoRA (Quantized Low-Rank Adaptation) dostosowany do tekstów dotyczących norweskiego prawa opieki nad dziećmi i prawa administracyjnego. W przeciwieństwie do ogólnego modelu LLM, dbn-legal-agent zinternalizował proceduralne słownictwo i wzorce rozumowania z forvaltningsloven: co wywołuje prawo do wysłuchania zgodnie z § 17, co musi zawierać zgodna z prawem decyzja uzasadniona zgodnie z § 24, jak barnevernsloven § 6-3 określa standard najlepszego interesu dziecka.

W pipeline Korrespond, dbn-legal-agent działa jako adapter domenowy obok Azure gpt-4o. Zapytanie o odzyskiwanie jest konstruowane przy użyciu reprezentacji intake dbn-legal-agent, podczas gdy gpt-4o zajmuje się ostateczną generacją w ramach ograniczeń Hard-RAG. To rozdzielenie zapewnia strukturalną klarowność (gpt-4o) i precyzję domenową (dbn-legal-agent) w tym samym pipeline.

QLoRA forvaltningsloven barnevernsloven child-welfare corpus Norwegian bokmål output gpt-4o co-pipeline

Model responsibilities in the pipeline

ZaliczonyModelRola
Pass 1 classifygpt-4o-miniSzybka strukturalna klasyfikacja + wykrywanie luk
Pass 1 clarify questionsgpt-4o-mini + dbn-legal-agentGenerowanie pytań z uwzględnieniem domeny
Pass 2 draftgpt-4oPełna generacja listu w ramach ograniczeń Hard-RAG
Pass 2 self-checkgpt-4o-miniWeryfikacja cytatów + audyt tonu/celu/terminu
Pass 2 translategpt-4o-miniNorweski → tłumaczenie na język roboczy
Pass 3 refinegpt-4oPrzepisanie formalnych cytatów + blok Rettskilder

Zaliczony 3 — Udoskonalenie cytatów formalnych

Cytaty gotowe do sądu w dwóch stylach.

Opcjonalny trzeci etap wykonuje wyszukiwanie w zakresie jurysdykcji, a następnie przepisuje szkic z formalnymi cytatami w tekście i aneksem Rettskilder. Obsługiwane są dwa odrębne formaty cytatów:

🇳🇴

Styl cytatów norweskich

Cytaty w tekście używają jf. (z odniesieniem do) oraz oficjalnej nazwy ustawy + sekcji: jf. forvaltningsloven § 17, jf. opplæringslova § 9 A-4, jf. barnevernsloven § 6-3. Numery sekcji są weryfikowane w stosunku do korpusu przed włączeniem.

⚖️

Styl cytatów ECHR

Pełny format cytatów Europejskiego Trybunału Praw Człowieka: nazwa sprawy · numer wniosku · data · izba/Wielka Izba · paragraf. Przykład: Strand Lobben m.fl. mot Norge, EMD-37283/13 (Storkammer, 10.09.2019), § 207. Źródła pobrane z fragmentu korpusu ECHR i HUDOC.

Przykład udoskonalonego wyniku

Refined output showing formal citations including opplæringslova §9 A-4 and EMK artikkel 8

Udoskonalony szkic (norweski + angielski) z opplæringslova § 9 A-4 i EMK artikkel 8 cytatami w tekście.

Zapytania kotwiczące dla trybu ECHR

Dla spraw Barnevernet i Bufdir, proces udoskonalania ECHR uruchamia specyficzne zapytania kotwiczące, które celują w najczęściej cytowane norweskie sprawy rodzinne w korpusie HUDOC:

Strand Lobben m.fl. mot Norge Johansen mot Norge K.O. og V.M. mot Norge Aune mot Norge EMK Art. 8 family life Norway EMK Art. 6 fair trial

Prywatność i bezpieczeństwo

Twoje dokumenty nigdy nie opuszczają twojej sesji.

Prywatność przez projekt

  • Wszystkie przesłane pliki są ekstraktowane do tekstu w pamięci przy użyciu procesowych narzędzi do obsługi plików PHP. Surowe dane binarne nigdy nie są zapisywane na dysku serwera.
  • Kontekst sesji (twoja narracja, przesłany tekst, szkice) jest ograniczony do twojej uwierzytelnionej sesji i jest usuwany po zakończeniu sesji.
  • Azure OpenAI (gpt-4o, gpt-4o-mini) jest skonfigurowane w regionie Europa Zachodnia. Dane przetwarzane przez Azure OpenAI nie są wykorzystywane do szkolenia modeli w ramach domyślnej umowy dla przedsiębiorstw.
  • Azure AI Search (bnl-legal-search) przechowuje tylko publiczny korpus prawny — ustawy, decyzje trybunałów, wyroki ECHR. Żadne informacje o twojej sprawie nie są przechowywane w indeksie wyszukiwania.
  • Baza danych wektorów Qdrant przechowuje tylko osadzenia publicznego korpusu — brak danych użytkowników.
  • Zarejestrowana telemetria: nazwa narzędzia, język, typ wyjścia, liczba przejść, opóźnienie, liczba źródeł. Nie rejestruje się tekstu sprawy, nazw ani odniesień do spraw.

Zobacz, jak to działa w twojej sprawie.

Darmowe dla członków Do Better Norge. Wszystkie 3 przejścia dostępne dla każdego członka.

Zaloguj się, aby używać Korrespond → Zarejestruj się za darmo Podręcznik użytkownika