K0NSULT // ai-truth/ipIII
k0nsult.cloud / ai-truth / ipIII / agent-security / ai-security-whitepaper

AI/Agent Security Whitepaper — przewaga ipIII w AI-risk

Dokument dla działu ryzyka, CISO i compliance: dlaczego warstwa dowodowa ipIII ma szczególne znaczenie tam, gdzie działają agenci AI. Cztery filary — chain-of-custody agenta, tool call firewall, prompt-injection evidence, human oversight ledger — opisane uczciwie: co jest dziś dowiedzione (LIVE), a co jest projektem (ROADMAP). Wyłącznie warstwa obronna (blue/GRC), zero payloadów ofensywnych, dane wyłącznie syntetyczne.

Zakres i granice tego dokumentu. To materiał informacyjny (whitepaper), nie porada prawna ani zapewnienie zgodności. Mapowanie na AI Act (w tym art.73) to wsparcie decyzji (decision-support) — kwalifikacja prawna wymaga przeglądu przez radcę prawnego / DPO / compliance danej instytucji. Warstwa opisana poniżej jest wyłącznie defensywna: nie generuje ataków, nie wykonuje nieautoryzowanych skanów ani hack-back, nie zawiera payloadów. Przykłady — dane syntetyczne, w granicach pisemnych Rules of Engagement.
Teza: agenci AI potrzebują nie tylko modelu zagrożeń, ale łańcucha dowodowego.

Klasyczny AppSec/pentest odpowiada na pytanie „czy da się złamać system". W środowisku agentowym pojawia się drugie pytanie, którego SIEM/GRC dziś nie rozstrzyga wprost: co dokładnie zrobił agent, dlaczego, i kto to zatwierdził. ipIII buduje tę warstwę dowodową między działaniem agenta a obowiązkiem sprawozdawczym wobec zarządu, audytu i regulatora.

ŁAŃCUCH DOWODOWY AGENTA: działanie agentachain-of-custodytool firewalloversight ledgerevidence-packageraport do zarządu / regulatora

Cztery filary — status uczciwie

Zgodnie z doktryną claim ≤ proof: LIVE = kod + test + endpoint na żywej instancji. ROADMAP = zaprojektowana specyfikacja, jeszcze bez dowodu wdrożenia. Szczegóły każdego filaru na dedykowanej stronie (link w tabeli).

FilarCo rozwiązujeStatusDowód / szczegóły
Chain-of-custody agenta Niemodyfikowalny log każdego działania agenta (narzędzie, argumenty, wynik, hash łańcuchowy) — podstawa rekonstrukcji incydentu. LIVE (MVP) / rozszerzenia ROADMAP /agent-coc
Tool call firewall + Agent Risk Score Sześć bramek (scope, policy, limit danych, human-approval, log, risk-check) zanim agent wykona narzędzie; ośmioosiowy wskaźnik ekspozycji agenta. ROADMAP (spec, F9) /tool-firewall
Prompt-injection evidence pack Struktura pakietu dowodowego dla podejrzenia wstrzyknięcia promptu: wejście, kontekst, decyzja modelu, działanie, ślad do analizy. zobacz status na stronie źródłowej /prompt-injection-pack
Human oversight ledger Rejestr decyzji nadzoru człowieka nad systemem AI + testy regresyjne — dowód, że nadzór istnieje i działa w czasie, nie jednorazowo. zobacz status na stronie źródłowej /oversight-ledger
Status per filar bierzemy ze strony źródłowej, nie duplikujemy tu etykiet. Ten whitepaper jest warstwą syntetyzującą (executive summary) — jedynym miejscem prawdy o tym, co LIVE a co ROADMAP, pozostaje dedykowana strona każdego filaru oraz zbiorczy /status-matrix i /known-limitations.

Dlaczego to nie jest kolejny „AI firewall"

Rynek narzędzi AI security koncentruje się dziś głównie na warstwie detekcji (czy prompt jest podejrzany, czy output zawiera dane wrażliwe). ipIII pozycjonuje się jeden poziom wyżej — jako warstwa dowodowa, która odpowiada za to, żeby decyzja zarządu, audytora lub regulatora miała twardy ślad, nie samą deklarację.

Nie konkurent detektora

Nie zastępujemy narzędzi klasy tool-firewall/DLP działających w czasie rzeczywistym. ipIII konsumuje ich sygnał i buduje z niego pakiet dowodowy — chain-of-custody, manifest, hash, ślad decyzji — gotowy do raportu.

Warstwa między obroną a zarządem

Pentest/AppSec/SOC odpowiadają „co znaleziono". ipIII odpowiada „co z tym zrobiono, kto to zatwierdził i jak to udowodnić" — evidence-first, nie tylko alert-first.

Mapowanie regulacyjne wbudowane od początku

Struktura evidence-package jest projektowana pod obowiązki AI Act (w tym art.73 — zgłaszanie poważnych incydentów systemów wysokiego ryzyka), a nie doklejana post factum.

Uczciwość statusu jako cecha produktu

Deklarowanie ROADMAP jako ROADMAP (nie jako LIVE) jest częścią tego, co sprzedajemy bankowi/audytorowi — możliwość zweryfikowania każdego twierdzenia.

Mapowanie na AI Act — orientacyjnie, nie jako porada prawna

Poniższa tabela pokazuje, gdzie który filar dostarcza materiału dowodowego pod konkretny obowiązek regulacyjny. To orientacyjne mapowanie decision-support — ostateczna kwalifikacja (czy system jest „wysokiego ryzyka" w rozumieniu Aneksu III, czy zdarzenie jest „poważnym incydentem" w rozumieniu art.73) należy do prawnika / compliance danej instytucji, nie do tego dokumentu.

Obowiązek AI Act (orientacyjnie)Filar ipIII dostarczający evidenceUwaga
Art.73 — zgłoszenie poważnego incydentu systemu AI Chain-of-custody agenta + oversight ledger → chronologia zdarzenia, działania podjęte, decyzje nadzoru. Szkielet zbierania dowodów, patrz /ai-act-pack — status MVP/ROADMAP oznaczony jawnie na tamtej stronie.
Systemy wysokiego ryzyka (Aneks III) — nadzór człowieka Human oversight ledger → dowód, że nadzór jest rzeczywisty i udokumentowany w czasie. Digital Omnibus przesunął termin Aneksu III (high-risk) na 2.12.2027; art.50/obowiązki przejrzystości i GPAI — bez zmian. Patrz luka przejściowa.
Model card / dokumentacja techniczna Evidence z chain-of-custody + tool firewall (gdy wdrożony) → ślad, jakie narzędzia i dane były w zasięgu agenta. Nie zastępuje formalnej dokumentacji technicznej wymaganej rozporządzeniem — jest materiałem dowodowym uzupełniającym.
Prompt injection jako wektor incydentu bezpieczeństwa AI Prompt-injection evidence pack → struktura pakietu na potrzeby analizy i, w razie kwalifikacji, zgłoszenia. Detekcja/klasyfikacja podejrzenia leży po stronie narzędzi obronnych klienta; ipIII strukturyzuje dowód, nie generuje ataku testowego.
To nie jest porada prawna. Kwalifikacja systemu jako „wysokiego ryzyka", ocena czy zdarzenie spełnia próg „poważnego incydentu" z art.73, oraz treść finalnego zgłoszenia do organu nadzoru rynku — wymagają przeglądu i zatwierdzenia przez radcę prawnego / dział compliance instytucji. ipIII dostarcza wsparcie dowodowe (decision-support), nie zastępuje tej oceny.

Co ipIII NIE robi w obszarze AI-risk (uczciwie)

ObszarCzego nie robimyDlaczego / gdzie szukać
Detekcja ataków w czasie rzeczywistym Nie jesteśmy silnikiem wykrywającym prompt injection „na żywo" w ruchu produkcyjnym. To rola dedykowanych narzędzi obronnych klienta; ipIII konsumuje ich sygnał do warstwy dowodowej.
Egzekwowanie polityk w runtime Tool call firewall to dziś specyfikacja, nie działający mechanizm blokujący wywołania. Szczegóły i granice: /tool-firewall.
Automatyczna kwalifikacja prawna Nie orzekamy, czy dany przypadek spełnia definicję z AI Act — to zawsze decyzja człowieka. Legal Trigger Engine = decision-support, patrz /legal-engine.
Testy ofensywne na modelach produkcyjnych Nie uruchamiamy realnych ataków (red-team ofensywny) bez pisemnego RoE i wyłącznie na danych syntetycznych. Granice i tryb pracy: /engagement, /ai-redteam.

Dla kogo jest ten dokument

CISO / dział ryzyka

Punkt startowy do oceny, gdzie warstwa dowodowa ipIII spina się z istniejącym stosem AppSec/SOC dla agentów AI wdrożonych w organizacji.

Compliance / DPO

Mapa obowiązków AI Act i miejsc, gdzie potrzebny będzie przegląd prawnika przed jakimkolwiek zgłoszeniem do organu.

Audyt wewnętrzny / zewnętrzny

Wskazanie, które elementy mają dziś dowód (LIVE), a które są w budowie (ROADMAP) — bez konieczności zgadywania.

Zarząd / board

Skrót executive: cztery filary, jedna strona, jasne rozgraniczenie „co działa dziś" od „co jest planem".

„100%" u nas znaczy pokrycie dowodowe, nie nieprzenikalność. Deklarujemy dokładnie tyle, ile potrafimy pokazać kodem, testem i endpointem. Ten whitepaper syntetyzuje cztery filary — każdy z osobnym, jawnym statusem na dedykowanej stronie źródłowej.

Powiązane: warstwa bezpieczeństwa agentów → /agent-security · mapa ryzyka AI → /ai-risk-map · playbook prompt injection → /playbook-prompt-injection · jawny rejestr braków → /known-limitations · macierz statusów → /status-matrix.