K0NSULT // ai-truth/ipIII
k0nsult.cloud / ai-truth / ipIII / AI Agent Security Evidence Layer

AI Agent Security Evidence Layer

Agent AI, który samodzielnie wywołuje narzędzia, czyta dokumenty i podejmuje decyzje w imieniu człowieka, jest nowym typem podmiotu ryzyka — nie funkcją. Ta strona to punkt zbiorczy (pillar) dla dziewięciu modułów ipIII budujących warstwę dowodową AI-risk: rejestr prompt injection, przechwycenie agenta (agent hijack), kontrolę wywołań narzędzi (tool-calls), ślad nadzoru człowieka (human oversight), łańcuch dowodowy działania agenta (chain-of-custody) oraz inwentarz ryzyka modeli (model risk). Wszystko wyłącznie defensywnie, na danych syntetycznych, w granicach pisemnych Rules of Engagement. Doktryna: claim ≤ proof — moduł bez kodu, testu i endpointu jest oznaczony ROADMAP, nie LIVE.

Agent AI działający w imieniu banku, urzędu czy operatora infrastruktury to konto uprzywilejowane — traktujemy je tak samo dowodowo.

Przewaga ipIII w obszarze AI-risk nie polega na obietnicy „wykrywamy każdy atak na model". Polega na tym, że każda warstwa — od wejścia (prompt) przez decyzję agenta (tool-call) po wyjście (output i zgoda człowieka) — zostawia dowód: kto, co, na jakiej podstawie, z jakim wynikiem. To jest dokładnie ta sama doktryna evidence-first, którą ipIII stosuje do incydentów DevSecOps, przeniesiona na warstwę agentową.

OŚ DOJRZAŁOŚCI: rejestr zagrożeń (dziś)MVP: incident/oversight/model-riskROADMAP: firewall/scanner/tracepilot z bankiem/partnerem

1. Dlaczego agent AI to osobna powierzchnia dowodowa

Klasyczny skaner podatności sprawdza kod i konfigurację — statyczny cel. Agent AI jest dynamiczny: interpretuje język naturalny, decyduje które narzędzie wywołać, może zmienić zachowanie pod wpływem treści, którą właśnie przetwarza (np. dokumentu pobranego przez RAG). To rodzi cztery kategorie ryzyka, których żaden klasyczny skaner SAST/DAST nie obejmuje wprost:

Prompt injection

Treść wejściowa (dokument, e-mail, strona, wynik wyszukiwania) zawiera instrukcję, która próbuje zmienić zachowanie modelu wbrew intencji operatora.

Agent hijack

Przejęcie kontroli nad pętlą decyzyjną agenta — wymuszenie wywołania narzędzia poza pierwotnym zadaniem lub eskalacja uprawnień przez łańcuch delegacji.

Tool-call abuse

Agent wywołuje narzędzie (API, zapis do bazy, wysyłka wiadomości) poza dozwolonym zakresem (scope) albo z parametrami, które nie były zamierzone przez operatora.

Oversight bypass

Akcja wysokiego ryzyka wykonywana bez wymaganej zgody człowieka albo zgoda udzielana automatycznie, bez realnej weryfikacji dowodu.

Odpowiedzią ipIII nie jest jeden „super-skaner ataków na AI" — bo taki skaner nie istnieje i twierdzenie inaczej byłoby overclaimem. Odpowiedzią jest rejestr dowodowy: każda z tych kategorii ma dedykowaną stronę specyfikacji lub działający moduł MVP, z jawnym statusem LIVE / MVP / ROADMAP.

2. Rejestr zagrożeń agentowych — mapowanie na warstwę dowodową

Kategoria ryzykaCo obserwujemyDowód sukcesu obronyModuł ipIIIStatus
Prompt injection Instrukcja wstrzyknięta w treść wejściową próbująca zmienić zadanie modelu. Wzorzec wykryty i odizolowany przed wykonaniem narzędzia; zdarzenie zapisane w evidence pack. Prompt Injection Evidence Pack ROADMAP
Agent hijack Przejęcie pętli decyzyjnej agenta lub eskalacja poza przyznany scope. Trust score agenta spada, akcja zablokowana przez tool firewall, zdarzenie w rejestrze incydentów. Agent Security (rejestr agentów) SYMULACJA / MVP
Tool-call poza scope Wywołanie narzędzia z parametrami lub celem spoza allowlisty. Bramka scope/policy/limit odrzuca wywołanie przed egzekucją; log decyzji. Tool Call Firewall ROADMAP (F9)
Oversight bypass Akcja wysokiego ryzyka bez zgody człowieka lub zgoda bez realnej weryfikacji. Wpis w rejestrze: kto zatwierdził, na jakim dowodzie, czy AI rekomendowało inaczej. Human Oversight Ledger MVP
Chain-of-custody agenta Brak powiązania między promptem, wywołaniem narzędzia a wynikiem — decyzja niemożliwa do odtworzenia. Kompletny łańcuch: prompt → input → retrieved-context → tool-call → args → output → human-approval → hash. Agent Chain-of-Custody MVP (struktura) / interaktywny trace ROADMAP
Model risk Model bez właściciela, bez aktualnej ewaluacji, bez powiązanego poziomu ryzyka. Wpis w Model Risk Register: owner, wersja, wynik eval, mapowanie na klasę ryzyka AI Act. Model Risk Register MVP
RAG poisoning Dokument w bazie wiedzy zawiera wstrzyknięcie, a odpowiedź nie ma realnego poparcia w źródle. Ślad: które dokumenty pobrano, które fragmenty użyto, czy źródło autoryzowane. RAG Evidence Trace ROADMAP (F9)
Tool / MCP poisoning Serwer MCP lub manifest narzędzia zawiera ukrytą instrukcję albo zmieniony opis. Inwentaryzacja serwerów MCP + przegląd manifestu + detekcja podejrzanych opisów przed dopuszczeniem narzędzia. MCP / Tool Poisoning Scanner ROADMAP (F9)
Taksonomia incydentów AI Zdarzenie AI (halucynacja, unsafe tool call, data poisoning) bez ustandaryzowanego przepływu zgłoszenia. Zgłoszenie → evidence → owner → legal trigger → human approval → raport, w jednym rejestrze. AI Incident Register MVP

3. Dziewięć modułów — jedna warstwa dowodowa

Każdy moduł poniżej odpowiada za inny etap cyklu życia decyzji agenta. Razem tworzą ciągłość dowodową: od momentu, gdy agent dostaje zadanie, po moment, gdy człowiek zatwierdza (albo blokuje) akcję wysokiego ryzyka.

Agent Security SYMULACJA

Rejestr agentów AI z tożsamością (DID), scoringiem zaufania (trust delta), tool allowlist i statusem ACTIVE / DEGRADED / QUARANTINED. Punkt startowy: agent bez wpisu w rejestrze nie ma prawa działać.

Agent Chain-of-Custody MVP

Łańcuch dowodowy pojedynczej decyzji: prompt, input, retrieved-context, tool-call, argumenty, output, zgoda człowieka, znacznik czasu, hash. Struktura opisana; interaktywny podgląd trace to ROADMAP.

Tool Firewall ROADMAP

Specyfikacja bramek przed każdym wywołaniem narzędzia: scope, policy, limit danych, wymóg zgody człowieka, log, kontrola ryzyka. Agent nie wykonuje narzędzia bez przejścia bramek.

Prompt Injection Pack ROADMAP

Struktura pakietu dowodowego dla incydentu prompt injection: kontekst, źródło, model, tool-call, wynik, dotknięty zasób, dowód, remediacja, test regresyjny. Opisujemy pola pakietu — nie publikujemy treści ataku.

Oversight Ledger MVP

Rejestr decyzji człowieka nad rekomendacją AI: kto zatwierdził, na jakim dowodzie, czy AI rekomendowało inaczej, presja czasu, wynik. Powiązanie z art. 14 AI Act (human oversight) — decision-support, nie porada prawna.

Model Risk Register MVP

Inwentarz modeli AI: owner, wersja, model card, wynik ewaluacji, poziom ryzyka. Workflow: rejestracja → model card → owner → eval → przegląd. Mapowanie kontekstowe na klasy AI Act (GPAI, high-risk).

AI Incident Register MVP

Taksonomia incydentów AI (prompt injection, agent hijack, data poisoning, halucynacja, tool misuse, excessive agency, nieautoryzowane wywołanie narzędzia) w jednym przepływie: zgłoszenie → evidence → owner → legal trigger → human approval → raport.

RAG Evidence Trace ROADMAP

Ślad dowodowy dla systemów RAG: które dokumenty pobrano, które fragmenty realnie użyto, czy dokument zawierał wstrzyknięcie, czy odpowiedź ma poparcie w źródle, czy źródło było autoryzowane.

MCP / Tool Poisoning Scanner ROADMAP

Specyfikacja skanera warstwy MCP / tool-use: inwentaryzacja serwerów, przegląd manifestu narzędzi, detekcja podejrzanych opisów i ukrytych instrukcji, widoczność parametrów, wymóg sandboxa i audit loggingu.

4. Jak wygląda dowód jednej decyzji agenta

Poniżej syntetyczny przykład ilustrujący, jak łańcuch dowodowy (chain-of-custody) łączy wszystkie moduły w jeden ślad dla pojedynczej akcji agenta „Payments Bot" próbującego wykonać przelew powyżej limitu operacyjnego. Dane demonstracyjne — nie pochodzą z realnego środowiska produkcyjnego banku.

Krok 1 — wejście. Agent otrzymuje polecenie z systemu ticketowego; treść zapisana w łańcuchu jako input z hashem SHA-256.
Krok 2 — kontekst. Agent pobiera dane z RAG (polityka limitów); moduł RAG Trace odnotowuje, który dokument i fragment został użyty.
Krok 3 — decyzja o narzędziu. Agent próbuje wywołać execute_transfer z kwotą powyżej progu tier T1; tool firewall blokuje wywołanie na bramce limitu danych.
Krok 4 — skutek dla zaufania. Trust delta agenta spada (rejestr agentów), status zmienia się na DEGRADED, próg human-approval dla kolejnych akcji rośnie.
Krok 5 — nadzór człowieka. Zdarzenie trafia do Oversight Ledger: operator decyduje ręcznie, decyzja i uzasadnienie zapisane razem z dowodem, na którym się oparł.
Krok 6 — zamknięcie. Całość trafia do AI Incident Register jako zamknięty przypadek klasy „unsafe tool call" z odsyłaczem do evidence pack i testem regresyjnym na przyszłość.

Cały przebieg powyżej to SYMULACJA ilustrująca docelowy przepływ dowodowy — poszczególne kroki mają różny status dojrzałości (patrz tabela w sekcji 2 i 3), zgodnie z doktryną claim ≤ proof.

5. Pilotaż: dane syntetyczne i Rules of Engagement

9
modułów warstwy AI-risk
rejestr + specyfikacje + MVP
4
MVP działające dziś
agent-security, oversight, model-risk, ai-incident, agent-coc (struktura)
4
ROADMAP (specyfikacja)
tool-firewall, prompt-injection-pack, rag-trace, mcp-scanner
0
payloadów ofensywnych publikowanych
opisujemy pola i dowody, nie techniki ataku

Każdy pilot warstwy AI-risk przebiega na danych syntetycznych, w granicach pisemnych Rules of Engagement, z jasno zdefiniowanym dowodem sukcesu przed startem: co ma zostać wykryte, jaki artefakt (log, hash, wpis w rejestrze) potwierdza wykrycie, kto po stronie klienta akceptuje wynik. To wsparcie decyzji (decision-support) dla zespołu bezpieczeństwa i compliance — nie zastępuje przeglądu prawnego ani własnego red-teamu klienta.

6. Czego ta strona NIE oznacza

To nie jest deklaracja „wykrywamy każdy atak na agenta AI". Rejestr zagrożeń w sekcji 2 pokazuje dokładnie, które moduły działają dziś jako MVP, a które są specyfikacją czekającą na implementację. Element bez kodu, testu i endpointu jest oznaczony ROADMAP, nigdy jako LIVE.
To nie jest narzędzie ofensywne. Warstwa AI-risk ipIII działa wyłącznie defensywnie: rejestruje, klasyfikuje i dokumentuje zdarzenia, nie generuje ani nie testuje technik wstrzyknięć na produkcji bez pisemnego RoE. Opisy modułów operują na polach pakietu dowodowego, nie na treści ataków.
Granica prawna. Mapowanie na AI Act (art. 14 human oversight, klasy ryzyka GPAI/high-risk) w modułach Oversight Ledger i Model Risk Register to wsparcie decyzji, nie porada prawna. Kwalifikację prawną i ocenę zgodności z konkretną jurysdykcją wykonuje radca prawny lub kancelaria klienta.

FAQ

Czym jest AI Agent Security Evidence Layer w ipIII?
To zbiorcza warstwa dowodowa dla ryzyka związanego z agentami AI: rejestr agentów, łańcuch dowodowy decyzji, kontrola wywołań narzędzi, ślad nadzoru człowieka i inwentarz ryzyka modeli — spięte w jeden przepływ evidence-first.
Czy ta warstwa zastępuje klasyczne skanery bezpieczeństwa (SAST/DAST/SCA)?
Nie. To rejestr i specyfikacje uzupełniające, skoncentrowane na ryzyku specyficznym dla agentów AI (prompt injection, agent hijack, tool-call abuse). Klasyczne skanery kodu i infrastruktury działają osobno i pozostają potrzebne.
Czy to NIE jest certyfikacja ani gwarancja bezpieczeństwa agenta?
Nie. Żaden moduł opisany na tej stronie nie stanowi certyfikacji ani gwarancji. To narzędzia wsparcia decyzji (decision-support): rejestrują dowody i ułatwiają nadzór, ale ocenę ryzyka i decyzję wdrożeniową podejmuje zawsze zespół klienta.
Jak wygląda pilotaż tej warstwy z partnerem lub bankiem?
Wyłącznie na danych syntetycznych, w granicach pisemnego Rules of Engagement, z dowodem sukcesu zdefiniowanym przed startem (konkretny artefakt: log, hash, wpis w rejestrze). Zero payloadów ofensywnych, zero działań poza RoE.
Które moduły działają dziś, a które są dopiero specyfikacją?
MVP: Agent Security (symulacja), Oversight Ledger, Model Risk Register, AI Incident Register, struktura Agent Chain-of-Custody. ROADMAP (specyfikacja, F9): Tool Firewall, Prompt Injection Pack, RAG Evidence Trace, MCP / Tool Poisoning Scanner.

Następny krok

Zobacz AI incident workflow

Taksonomia i przepływ zgłoszenie → evidence → owner → legal trigger → human approval → raport.

→ /ai-incident

Agent chain-of-custody

Struktura łańcucha dowodowego pojedynczej decyzji agenta AI, pole po polu, z przykładem syntetycznym.

→ /agent-coc

Tool firewall

Specyfikacja bramek scope/policy/limit/approval przed wykonaniem narzędzia przez agenta.

→ /tool-firewall

Powiązane: pełny rejestr znanych ograniczeń orchestratora → /known-limitations · macierz statusów wszystkich elementów → /status-matrix · Rules of Engagement → /engagement.