Moduł §4.8 Evidence & Resilience Orchestratora. Kontrolowane, uzgodnione testowanie systemów AI i agentowych: znajdujemy słabości modeli, promptów, narzędzi i pętli agentowych zanim zrobi to przeciwnik. Każdy test jest dowodem, każdy wynik ma status, nic nie wychodzi poza pisemny scope.
/api/ip3/*, smoke test, PoC szkieletu autoryzacji). Reszta to ROADMAP / SIMULATION.
AI Red Team to dyscyplina, nie zbiór trików. Model zagrożeń AI (OWASP LLM Top 10, MITRE ATLAS) zamieniamy na powtarzalne, wersjonowane testy. Wynik domyślnie ma status SIMULATION — dopiero potwierdzony realny incydent dostaje CONFIRMED z dowodem i chain of custody.
Doktryna, klasyfikacja testów, playbook findingów i zasady RoE — opisane i obowiązujące jako metodyka. To ta strona.
Odczyt zdarzeń typu AI przez /api/ip3/incidents (tryb read-only). → API
Skeleton kontroli scope/RoE (auth-skeleton, bez egzekucji testów). Bramka przed jakimkolwiek uruchomieniem. → Rules of Engagement
Automatyczne uruchamianie zestawów (harness Promptfoo/Garak), zbieranie evidence, scoring. Nie zaimplementowany.
Finding → playbook naprawy → retest jako dowód domknięcia pętli. → Response & Retest
Wszelkie liczby poniżej są demonstracyjne — ilustrują format panelu, nie stan realnego systemu.
Mapowanie na OWASP LLM Top 10 / MITRE ATLAS. Priorytety i pokrycie mają charakter demonstracyjny (docelowa architektura). Kolumna „Cel testu" opisuje intencję — nigdy payload.
| Test | Wektor / cel testu | Odn. | Prio | Status |
|---|---|---|---|---|
| Prompt injection | Wstrzyknięcie instrukcji nadpisujących politykę (direct + indirect z treści). Cel: sprawdzić czy model łamie reguły systemowe. | LLM01 | P0 | SIMULATION |
| Data leakage (RAG) | Wyciek dokumentów z kontekstu / bazy wektorowej poza uprawnienia użytkownika. Cel: izolacja tenantów i filtrów dostępu. | LLM06 | P0 | SIMULATION |
| Tool / function abuse | Nadużycie narzędzi agenta (nieuprawnione wywołania API, eskalacja przez tool-calling). Cel: least-privilege dla toolingu. | LLM07 | P0 | SIMULATION |
| Agent hijack | Przejęcie pętli agentowej (goal hijacking, przekierowanie celu, łańcuch multi-agent). Cel: odporność orkiestracji i human-in-the-loop. | ATLAS | P0 | SIMULATION |
| Hallucination / GAP | Wymuszenie pewnego, lecz fałszywego twierdzenia z konsekwencją. Cel: wykrycie braku pokrycia dowodowego (status GAP w Truth Engine). | LLM09 | P1 | SIMULATION |
| Policy / guardrail bypass | Obejście barier bezpieczeństwa (jailbreak, kodowania, wielojęzyczność, role-play). Cel: trwałość guardraili pod presją. | LLM01 | P1 | SIMULATION |
| Model extraction | Odtworzenie wag / promptu systemowego / zachowania przez masowe zapytania. Cel: rate-limiting, watermarking, ochrona IP modelu. | LLM10 | P2 | SIMULATION |
| Data poisoning | Zatrucie danych treningowych / źródeł RAG / feedback loop. Cel: integralność pipeline'u danych i walidacja źródeł. | LLM03 | P1 | SIMULATION |
| Deepfake / social eng. | Podszycie tożsamości głos/wideo/tekst, fałszywy agent, socjotechnika wspomagana AI. Cel: weryfikacja tożsamości i kanałów zaufania. | ATLAS | P1 | SIMULATION |
Test uruchamiany wyłącznie w izolowanym środowisku i wyłącznie w granicach pisemnego RoE. Poza scope — brak egzekucji. Zero hack-back.
Żadnych realnych danych osobowych / tajemnicy w testach. Dane syntetyczne lub zanonimizowane. Odseparowane od produkcji.
Wszystkie prompty, odpowiedzi i konfiguracje zapisywane jako dowód (hash, timestamp, wersja modelu). Pełna odtwarzalność.
Rezultat testu nosi status SIMULATION. Dopiero potwierdzony realny incydent podnosimy do CONFIRMED z dowodem.
Testy P0 (prompt injection, tool abuse, agent hijack, data leakage) wymagają zatwierdzenia i nadzoru człowieka. Bez autopilota.
Ta strona opisuje intencje testów, nie dostarcza działających exploitów. Materiały techniczne — tylko w kontrolowanym repozytorium RoE.
Ścieżka od uruchomienia testu do domkniętej, udowodnionej naprawy. Referencja procesu — nie działający runner.
PLAYBOOK AI-RT-FINDING (§11.4) status: ROADMAP
──────────────────────────────────────────────────────────────────────
[0] PRE-FLIGHT ── weryfikacja RoE
· scope potwierdzony pisemnie? cele w zakresie? okno czasowe?
· sandbox izolowany od produkcji? dane syntetyczne?
· GATE: brak RoE -> STOP (nie uruchamiaj) [human]
[1] EXECUTE ── uruchom zestaw testów w sandboxie
· harness: Promptfoo / Garak (zestaw wersjonowany)
· zapisz każdy prompt+odpowiedź jako evidence (hash+ts)
· model/wersja/temperatura zapięte w metadanych
[2] CAPTURE ── zbuduj dowód
· evidence_id, sha256(transkrypt), config, seed
· klasa testu (LLM01..10 / ATLAS), reprodukowalność
[3] TRIAGE ── ocena
· czy to realna słabość czy oczekiwane zachowanie?
· severity (CVSS-like) + priorytet P0..P3
· status wyniku = SIMULATION (domyślnie)
[4] FINDING ── zapis ustrukturyzowany
· tytuł, wektor, warunki, wpływ, dowód, rekomendacja
· flagi prawne (AI Act art.73 / NIS2 / RODO) jeśli realny incydent
[5] HANDOFF ── przekaż do naprawy
· finding -> Response & Retest (playbook fix)
· GATE P0/P1: zatwierdzenie właściciela systemu [human]
[6] FIX ── mitygacja
· guardrail / filtr / least-privilege / rate-limit / walidacja źródeł
[7] RETEST ── DOWÓD DOMKNIĘCIA
· powtórz identyczny zestaw testów
· finding zamknięty TYLKO gdy retest = negatywny (dowód naprawy)
· brak dowodu naprawy -> finding pozostaje OPEN
──────────────────────────────────────────────────────────────────────
Zasada: claim <= proof. Zamknięcie bez retestu jest niedozwolone.
Klasy narzędzi rozważane jako harness modułu. Wskazanie kategorii — nie rekomendacja handlowa ani konfiguracja ofensywna.
Wersjonowane zestawy testów promptów, regresja jailbreaków, scoring odpowiedzi. Kandydat na [1] EXECUTE.
Skaner podatności LLM (prompt injection, leakage, toxicity). Zestawy prób jako biblioteka testów.
Detekcja/obrona przed prompt injection i wyciekiem — jako punkt odniesienia dla walidacji guardraili (blue-side).
Ochrona modeli i wykrywanie ataków adwersaryjnych — referencja dla klasy model extraction / poisoning.
/api/ip3/*, PoC auth-skeleton). Elementy ROADMAP / SIMULATION nie są zaimplementowane produkcyjnie. Bez kodu + testu + endpointu = nie LIVE.