k0nsult.cloud / ai-truth / ipIII / orchestrator / ai-redteam

K0-AI-REDTEAM — adwersaryjne testowanie AI [ROADMAP]

Moduł §4.8 Evidence & Resilience Orchestratora. Kontrolowane, uzgodnione testowanie systemów AI i agentowych: znajdujemy słabości modeli, promptów, narzędzi i pętli agentowych zanim zrobi to przeciwnik. Każdy test jest dowodem, każdy wynik ma status, nic nie wychodzi poza pisemny scope.

Orchestrator Konektory Normalizacja Truth Engine Evidence Layer Legal Engine DORA / TIBER Response & Retest AI Red Team Roadmap dev ← ipIII hub

Specyfikacja docelowa (dev-doc). Status: ROADMAP — nie zaimplementowane produkcyjnie. Zgodnie z regułą §16: bez kodu + testu + endpointu = nie LIVE. Ta strona opisuje docelową architekturę modułu K0-AI-REDTEAM, a nie działający produkt. Co już istnieje realnie oznaczono LIVE z odnośnikiem (read-path API /api/ip3/*, smoke test, PoC szkieletu autoryzacji). Reszta to ROADMAP / SIMULATION.
Granica twarda: system nie wykonuje nieautoryzowanych testów, exploitacji ani hack-back poza pisemnym Rules of Engagement (RoE). Zero payloadów ofensywnych na tej stronie.

Atakujemy własne AI wyłącznie w sandboxie i w uzgodnionym scope — po to, by dowieść odporności dowodem, nie deklaracją.

AI Red Team to dyscyplina, nie zbiór trików. Model zagrożeń AI (OWASP LLM Top 10, MITRE ATLAS) zamieniamy na powtarzalne, wersjonowane testy. Wynik domyślnie ma status SIMULATION — dopiero potwierdzony realny incydent dostaje CONFIRMED z dowodem i chain of custody.

PĘTLA: SCOPE + RoE→SANDBOX→TEST→EVIDENCE→TRIAGE→FINDING→FIX→RETEST

Status komponentów

Metodyka i katalog testów LIVE

Doktryna, klasyfikacja testów, playbook findingów i zasady RoE — opisane i obowiązujące jako metodyka. To ta strona.

Read-path incydentów LIVE

Odczyt zdarzeń typu AI przez /api/ip3/incidents (tryb read-only). → API

PoC szkieletu autoryzacji LIVE

Skeleton kontroli scope/RoE (auth-skeleton, bez egzekucji testów). Bramka przed jakimkolwiek uruchomieniem. → Rules of Engagement

Silnik wykonania testów ROADMAP

Automatyczne uruchamianie zestawów (harness Promptfoo/Garak), zbieranie evidence, scoring. Nie zaimplementowany.

Integracja z Response & Retest ROADMAP

Finding → playbook naprawy → retest jako dowód domknięcia pętli. → Response & Retest

Wyniki operacyjne SIMULATION

Wszelkie liczby poniżej są demonstracyjne — ilustrują format panelu, nie stan realnego systemu.

Katalog testów adwersaryjnych SIMULATION

Mapowanie na OWASP LLM Top 10 / MITRE ATLAS. Priorytety i pokrycie mają charakter demonstracyjny (docelowa architektura). Kolumna „Cel testu" opisuje intencję — nigdy payload.

Test	Wektor / cel testu	Odn.	Prio	Status
Prompt injection	Wstrzyknięcie instrukcji nadpisujących politykę (direct + indirect z treści). Cel: sprawdzić czy model łamie reguły systemowe.	LLM01	P0	SIMULATION
Data leakage (RAG)	Wyciek dokumentów z kontekstu / bazy wektorowej poza uprawnienia użytkownika. Cel: izolacja tenantów i filtrów dostępu.	LLM06	P0	SIMULATION
Tool / function abuse	Nadużycie narzędzi agenta (nieuprawnione wywołania API, eskalacja przez tool-calling). Cel: least-privilege dla toolingu.	LLM07	P0	SIMULATION
Agent hijack	Przejęcie pętli agentowej (goal hijacking, przekierowanie celu, łańcuch multi-agent). Cel: odporność orkiestracji i human-in-the-loop.	ATLAS	P0	SIMULATION
Hallucination / GAP	Wymuszenie pewnego, lecz fałszywego twierdzenia z konsekwencją. Cel: wykrycie braku pokrycia dowodowego (status GAP w Truth Engine).	LLM09	P1	SIMULATION
Policy / guardrail bypass	Obejście barier bezpieczeństwa (jailbreak, kodowania, wielojęzyczność, role-play). Cel: trwałość guardraili pod presją.	LLM01	P1	SIMULATION
Model extraction	Odtworzenie wag / promptu systemowego / zachowania przez masowe zapytania. Cel: rate-limiting, watermarking, ochrona IP modelu.	LLM10	P2	SIMULATION
Data poisoning	Zatrucie danych treningowych / źródeł RAG / feedback loop. Cel: integralność pipeline'u danych i walidacja źródeł.	LLM03	P1	SIMULATION
Deepfake / social eng.	Podszycie tożsamości głos/wideo/tekst, fałszywy agent, socjotechnika wspomagana AI. Cel: weryfikacja tożsamości i kanałów zaufania.	ATLAS	P1	SIMULATION

Zasady prowadzenia testów

Tylko sandbox / uzgodniony scope twarda

Test uruchamiany wyłącznie w izolowanym środowisku i wyłącznie w granicach pisemnego RoE. Poza scope — brak egzekucji. Zero hack-back.

Bez produkcyjnych danych wrażliwych RODO

Żadnych realnych danych osobowych / tajemnicy w testach. Dane syntetyczne lub zanonimizowane. Odseparowane od produkcji.

Każdy prompt = evidence chain of custody

Wszystkie prompty, odpowiedzi i konfiguracje zapisywane jako dowód (hash, timestamp, wersja modelu). Pełna odtwarzalność.

Wynik = SIMULATION domyślnie status

Rezultat testu nosi status SIMULATION. Dopiero potwierdzony realny incydent podnosimy do CONFIRMED z dowodem.

Human-in-the-loop dla krytycznych P0

Testy P0 (prompt injection, tool abuse, agent hijack, data leakage) wymagają zatwierdzenia i nadzoru człowieka. Bez autopilota.

Zero payloadów publicznie §16

Ta strona opisuje intencje testów, nie dostarcza działających exploitów. Materiały techniczne — tylko w kontrolowanym repozytorium RoE.

Playbook: AI Red Team Finding (§11.4)

Ścieżka od uruchomienia testu do domkniętej, udowodnionej naprawy. Referencja procesu — nie działający runner.

PLAYBOOK  AI-RT-FINDING  (§11.4)                          status: ROADMAP
──────────────────────────────────────────────────────────────────────
[0] PRE-FLIGHT  ── weryfikacja RoE
      · scope potwierdzony pisemnie? cele w zakresie? okno czasowe?
      · sandbox izolowany od produkcji? dane syntetyczne?
      · GATE: brak RoE  ->  STOP (nie uruchamiaj)              [human]

[1] EXECUTE     ── uruchom zestaw testów w sandboxie
      · harness: Promptfoo / Garak (zestaw wersjonowany)
      · zapisz każdy prompt+odpowiedź jako evidence (hash+ts)
      · model/wersja/temperatura zapięte w metadanych

[2] CAPTURE     ── zbuduj dowód
      · evidence_id, sha256(transkrypt), config, seed
      · klasa testu (LLM01..10 / ATLAS), reprodukowalność

[3] TRIAGE      ── ocena
      · czy to realna słabość czy oczekiwane zachowanie?
      · severity (CVSS-like) + priorytet P0..P3
      · status wyniku = SIMULATION (domyślnie)

[4] FINDING     ── zapis ustrukturyzowany
      · tytuł, wektor, warunki, wpływ, dowód, rekomendacja
      · flagi prawne (AI Act art.73 / NIS2 / RODO) jeśli realny incydent

[5] HANDOFF     ── przekaż do naprawy
      · finding -> Response & Retest  (playbook fix)
      · GATE P0/P1: zatwierdzenie właściciela systemu        [human]

[6] FIX         ── mitygacja
      · guardrail / filtr / least-privilege / rate-limit / walidacja źródeł

[7] RETEST      ── DOWÓD DOMKNIĘCIA
      · powtórz identyczny zestaw testów
      · finding zamknięty TYLKO gdy retest = negatywny (dowód naprawy)
      · brak dowodu naprawy  ->  finding pozostaje OPEN
──────────────────────────────────────────────────────────────────────
Zasada: claim <= proof. Zamknięcie bez retestu jest niedozwolone.

Narzędzia referencyjne

Klasy narzędzi rozważane jako harness modułu. Wskazanie kategorii — nie rekomendacja handlowa ani konfiguracja ofensywna.

Promptfoo eval / harness

Wersjonowane zestawy testów promptów, regresja jailbreaków, scoring odpowiedzi. Kandydat na [1] EXECUTE.

Garak LLM scanner

Skaner podatności LLM (prompt injection, leakage, toxicity). Zestawy prób jako biblioteka testów.

Lakera guardrail

Detekcja/obrona przed prompt injection i wyciekiem — jako punkt odniesienia dla walidacji guardraili (blue-side).

HiddenLayer MLSecOps

Ochrona modeli i wykrywanie ataków adwersaryjnych — referencja dla klasy model extraction / poisoning.

Powiązane playbooki i zasoby

Playbook: Prompt injection

Reakcja i mitygacja dla wektora LLM01.

→ /playbook-prompt-injection

Playbook: Agent hijack

Przejęcie pętli agentowej — kroki reakcji.

→ /playbook-agent-hijack

AI / Agent Security

Kontekst obronny: architektura zabezpieczeń AI/agentów.

→ /agent-security

Zasada nadrzędna. AI Red Team istnieje po to, by przekształcić „wydaje się bezpieczne" w „udowodniono odporność". Test bez dowodu nie jest testem, a znalezisko bez retestu nie jest zamknięte. Ofensywa działa wyłącznie w klatce pisemnego RoE — poza nią system milczy.

Przypomnienie §16. Ten dokument to specyfikacja referencyjna architektury docelowej. Elementy oznaczone LIVE istnieją (metodyka, read-path /api/ip3/*, PoC auth-skeleton). Elementy ROADMAP / SIMULATION nie są zaimplementowane produkcyjnie. Bez kodu + testu + endpointu = nie LIVE.