Agent AI, który samodzielnie wywołuje narzędzia, czyta dokumenty i podejmuje decyzje w imieniu człowieka, jest nowym typem podmiotu ryzyka — nie funkcją. Ta strona to punkt zbiorczy (pillar) dla dziewięciu modułów ipIII budujących warstwę dowodową AI-risk: rejestr prompt injection, przechwycenie agenta (agent hijack), kontrolę wywołań narzędzi (tool-calls), ślad nadzoru człowieka (human oversight), łańcuch dowodowy działania agenta (chain-of-custody) oraz inwentarz ryzyka modeli (model risk). Wszystko wyłącznie defensywnie, na danych syntetycznych, w granicach pisemnych Rules of Engagement. Doktryna: claim ≤ proof — moduł bez kodu, testu i endpointu jest oznaczony ROADMAP, nie LIVE.
Przewaga ipIII w obszarze AI-risk nie polega na obietnicy „wykrywamy każdy atak na model". Polega na tym, że każda warstwa — od wejścia (prompt) przez decyzję agenta (tool-call) po wyjście (output i zgoda człowieka) — zostawia dowód: kto, co, na jakiej podstawie, z jakim wynikiem. To jest dokładnie ta sama doktryna evidence-first, którą ipIII stosuje do incydentów DevSecOps, przeniesiona na warstwę agentową.
Klasyczny skaner podatności sprawdza kod i konfigurację — statyczny cel. Agent AI jest dynamiczny: interpretuje język naturalny, decyduje które narzędzie wywołać, może zmienić zachowanie pod wpływem treści, którą właśnie przetwarza (np. dokumentu pobranego przez RAG). To rodzi cztery kategorie ryzyka, których żaden klasyczny skaner SAST/DAST nie obejmuje wprost:
Treść wejściowa (dokument, e-mail, strona, wynik wyszukiwania) zawiera instrukcję, która próbuje zmienić zachowanie modelu wbrew intencji operatora.
Przejęcie kontroli nad pętlą decyzyjną agenta — wymuszenie wywołania narzędzia poza pierwotnym zadaniem lub eskalacja uprawnień przez łańcuch delegacji.
Agent wywołuje narzędzie (API, zapis do bazy, wysyłka wiadomości) poza dozwolonym zakresem (scope) albo z parametrami, które nie były zamierzone przez operatora.
Akcja wysokiego ryzyka wykonywana bez wymaganej zgody człowieka albo zgoda udzielana automatycznie, bez realnej weryfikacji dowodu.
Odpowiedzią ipIII nie jest jeden „super-skaner ataków na AI" — bo taki skaner nie istnieje i twierdzenie inaczej byłoby overclaimem. Odpowiedzią jest rejestr dowodowy: każda z tych kategorii ma dedykowaną stronę specyfikacji lub działający moduł MVP, z jawnym statusem LIVE / MVP / ROADMAP.
| Kategoria ryzyka | Co obserwujemy | Dowód sukcesu obrony | Moduł ipIII | Status |
|---|---|---|---|---|
| Prompt injection | Instrukcja wstrzyknięta w treść wejściową próbująca zmienić zadanie modelu. | Wzorzec wykryty i odizolowany przed wykonaniem narzędzia; zdarzenie zapisane w evidence pack. | Prompt Injection Evidence Pack | ROADMAP |
| Agent hijack | Przejęcie pętli decyzyjnej agenta lub eskalacja poza przyznany scope. | Trust score agenta spada, akcja zablokowana przez tool firewall, zdarzenie w rejestrze incydentów. | Agent Security (rejestr agentów) | SYMULACJA / MVP |
| Tool-call poza scope | Wywołanie narzędzia z parametrami lub celem spoza allowlisty. | Bramka scope/policy/limit odrzuca wywołanie przed egzekucją; log decyzji. | Tool Call Firewall | ROADMAP (F9) |
| Oversight bypass | Akcja wysokiego ryzyka bez zgody człowieka lub zgoda bez realnej weryfikacji. | Wpis w rejestrze: kto zatwierdził, na jakim dowodzie, czy AI rekomendowało inaczej. | Human Oversight Ledger | MVP |
| Chain-of-custody agenta | Brak powiązania między promptem, wywołaniem narzędzia a wynikiem — decyzja niemożliwa do odtworzenia. | Kompletny łańcuch: prompt → input → retrieved-context → tool-call → args → output → human-approval → hash. | Agent Chain-of-Custody | MVP (struktura) / interaktywny trace ROADMAP |
| Model risk | Model bez właściciela, bez aktualnej ewaluacji, bez powiązanego poziomu ryzyka. | Wpis w Model Risk Register: owner, wersja, wynik eval, mapowanie na klasę ryzyka AI Act. | Model Risk Register | MVP |
| RAG poisoning | Dokument w bazie wiedzy zawiera wstrzyknięcie, a odpowiedź nie ma realnego poparcia w źródle. | Ślad: które dokumenty pobrano, które fragmenty użyto, czy źródło autoryzowane. | RAG Evidence Trace | ROADMAP (F9) |
| Tool / MCP poisoning | Serwer MCP lub manifest narzędzia zawiera ukrytą instrukcję albo zmieniony opis. | Inwentaryzacja serwerów MCP + przegląd manifestu + detekcja podejrzanych opisów przed dopuszczeniem narzędzia. | MCP / Tool Poisoning Scanner | ROADMAP (F9) |
| Taksonomia incydentów AI | Zdarzenie AI (halucynacja, unsafe tool call, data poisoning) bez ustandaryzowanego przepływu zgłoszenia. | Zgłoszenie → evidence → owner → legal trigger → human approval → raport, w jednym rejestrze. | AI Incident Register | MVP |
Każdy moduł poniżej odpowiada za inny etap cyklu życia decyzji agenta. Razem tworzą ciągłość dowodową: od momentu, gdy agent dostaje zadanie, po moment, gdy człowiek zatwierdza (albo blokuje) akcję wysokiego ryzyka.
Rejestr agentów AI z tożsamością (DID), scoringiem zaufania (trust delta), tool allowlist i statusem ACTIVE / DEGRADED / QUARANTINED. Punkt startowy: agent bez wpisu w rejestrze nie ma prawa działać.
Łańcuch dowodowy pojedynczej decyzji: prompt, input, retrieved-context, tool-call, argumenty, output, zgoda człowieka, znacznik czasu, hash. Struktura opisana; interaktywny podgląd trace to ROADMAP.
Specyfikacja bramek przed każdym wywołaniem narzędzia: scope, policy, limit danych, wymóg zgody człowieka, log, kontrola ryzyka. Agent nie wykonuje narzędzia bez przejścia bramek.
Struktura pakietu dowodowego dla incydentu prompt injection: kontekst, źródło, model, tool-call, wynik, dotknięty zasób, dowód, remediacja, test regresyjny. Opisujemy pola pakietu — nie publikujemy treści ataku.
Rejestr decyzji człowieka nad rekomendacją AI: kto zatwierdził, na jakim dowodzie, czy AI rekomendowało inaczej, presja czasu, wynik. Powiązanie z art. 14 AI Act (human oversight) — decision-support, nie porada prawna.
Inwentarz modeli AI: owner, wersja, model card, wynik ewaluacji, poziom ryzyka. Workflow: rejestracja → model card → owner → eval → przegląd. Mapowanie kontekstowe na klasy AI Act (GPAI, high-risk).
Taksonomia incydentów AI (prompt injection, agent hijack, data poisoning, halucynacja, tool misuse, excessive agency, nieautoryzowane wywołanie narzędzia) w jednym przepływie: zgłoszenie → evidence → owner → legal trigger → human approval → raport.
Ślad dowodowy dla systemów RAG: które dokumenty pobrano, które fragmenty realnie użyto, czy dokument zawierał wstrzyknięcie, czy odpowiedź ma poparcie w źródle, czy źródło było autoryzowane.
Specyfikacja skanera warstwy MCP / tool-use: inwentaryzacja serwerów, przegląd manifestu narzędzi, detekcja podejrzanych opisów i ukrytych instrukcji, widoczność parametrów, wymóg sandboxa i audit loggingu.
Poniżej syntetyczny przykład ilustrujący, jak łańcuch dowodowy (chain-of-custody) łączy wszystkie moduły w jeden ślad dla pojedynczej akcji agenta „Payments Bot" próbującego wykonać przelew powyżej limitu operacyjnego. Dane demonstracyjne — nie pochodzą z realnego środowiska produkcyjnego banku.
input z hashem SHA-256.execute_transfer z kwotą powyżej progu tier T1; tool firewall blokuje wywołanie na bramce limitu danych.Cały przebieg powyżej to SYMULACJA ilustrująca docelowy przepływ dowodowy — poszczególne kroki mają różny status dojrzałości (patrz tabela w sekcji 2 i 3), zgodnie z doktryną claim ≤ proof.
Każdy pilot warstwy AI-risk przebiega na danych syntetycznych, w granicach pisemnych Rules of Engagement, z jasno zdefiniowanym dowodem sukcesu przed startem: co ma zostać wykryte, jaki artefakt (log, hash, wpis w rejestrze) potwierdza wykrycie, kto po stronie klienta akceptuje wynik. To wsparcie decyzji (decision-support) dla zespołu bezpieczeństwa i compliance — nie zastępuje przeglądu prawnego ani własnego red-teamu klienta.
Taksonomia i przepływ zgłoszenie → evidence → owner → legal trigger → human approval → raport.
Struktura łańcucha dowodowego pojedynczej decyzji agenta AI, pole po polu, z przykładem syntetycznym.
Specyfikacja bramek scope/policy/limit/approval przed wykonaniem narzędzia przez agenta.
Powiązane: pełny rejestr znanych ograniczeń orchestratora → /known-limitations · macierz statusów wszystkich elementów → /status-matrix · Rules of Engagement → /engagement.