K0NSULT // ai-truth/ipIII
k0nsult.cloud / ai-truth / ipIII / orchestrator / ai-incident

AI Incident Register — taksonomia i przepływ incydentów AI MVP

Jeden rejestr do zgłaszania i domykania incydentów związanych z systemami AI/agentami: prompt injection, przejęcie agenta, zatruwanie danych, incydent outputu modelu, halucynacja, nadużycie narzędzi, nadmierna agencyjność i nieautoryzowane wywołania. Podejście wyłącznie defensywne — bez payloadów i instrukcji ataku. Doktryna claim ≤ proof: to co poniżej to szkielet MVP i ROADMAP, nie działający system produkcyjny.

Zakres i granice. Ta strona to MVP/ROADMAP rejestru incydentów AI — szkielet taksonomii i przepływu decision-support, nie działający pipeline. Wszystkie przykłady są syntetyczne i opisane defensywnie: nie zawierają payloadów, promptów ataku ani instrukcji wykonania. Elementy działające oznaczamy LIVE na roadmapie dev; to, czego jeszcze nie ma, jest jawnie ROADMAP. Wszelkie działania o charakterze testu bezpieczeństwa wyłącznie w granicach pisemnych Rules of Engagement.
8 typów incydentów AI. Jeden przepływ. Zero payloadów.

Rejestr porządkuje zgłoszenia dotyczące systemów AI w spójną taksonomię i prowadzi je przez ten sam przepływ evidence-first co reszta ipIII: od zgłoszenia, przez dowody i właściciela, po sprawdzenie ewentualnego legal trigger, zatwierdzenie przez człowieka i raport. Human-in-the-loop jest wymagany — żadne domknięcie ani powiadomienie organu nie następuje automatycznie.

PRZEPŁYW: zgłoszenieevidenceownerlegal triggerhuman approvalreport

Taksonomia incydentów AI

Kolumna Severity = orientacyjna waga wpływu (nie ocena ryzyka regulacyjnego). Kolumna Legal trigger = wsparcie decyzji (decision-support): wskazówka, czy zgłoszenie może uruchomić obowiązek raportowy — nie porada prawna i nie automatyczne powiadomienie. Opisy są defensywne, bez payloadów.

TypOpis (defensywnie)SeverityLegal trigger (decision-support)
Prompt injection Treść z niezaufanego źródła (dokument, strona, wiadomość) próbuje nadpisać instrukcje modelu. Opis dotyczy skutku i detekcji, nie sposobu wykonania. Reakcja: playbook prompt injection. wysoka Możliwy trigger RODO (art. 33/34) przy wycieku danych osobowych; DORA/NIS2 przy usłudze krytycznej. Do weryfikacji prawnika.
Agent hijack Przejęcie kontroli nad przepływem agenta — agent wykonuje cele inne niż zamierzone przez operatora. Rejestrujemy objawy i ślad decyzyjny. Reakcja: playbook agent hijack. krytyczna Prawdopodobny incydent bezpieczeństwa; możliwy obowiązek zgłoszenia DORA/NIS2 przy usłudze krytycznej. Do weryfikacji prawnika.
Data poisoning Zatrucie danych treningowych/kontekstowych/RAG wpływające na zachowanie modelu. Rejestrujemy źródło i zakres, bez odtwarzania wektora. wysoka Możliwy wpływ na integralność systemu wysokiego ryzyka wg AI Act (weryfikacja klasyfikacji). Do potwierdzenia prawnika.
Model output incident Szkodliwy, niezgodny lub ujawniający dane wynik modelu (np. wyciek danych z kontekstu w odpowiedzi). Rejestrujemy artefakt wyjściowy jako evidence. wysoka Możliwy trigger RODO przy ujawnieniu danych osobowych; art. 50 AI Act przy braku oznaczenia treści AI. Do weryfikacji prawnika.
Halucynacja Model podaje nieprawdziwe treści jako fakt (fałszywe cytaty, wymyślone dane, nieistniejące źródła) z wpływem na decyzję. średnia Zależny od zastosowania; możliwy wpływ na obowiązki informacyjne/jakość usługi. Do oceny kontekstowej.
Tool misuse Nadużycie udostępnionego narzędzia — użycie zgodnego technicznie wywołania w niezamierzonym, szkodliwym celu. Rejestrujemy log wywołań. wysoka Możliwy incydent bezpieczeństwa; DORA/NIS2 przy usłudze krytycznej. Do weryfikacji prawnika.
Excessive agency Nadmierna agencyjność — agent ma szersze uprawnienia/zakres działania niż potrzeba, co zwiększa powierzchnię skutków błędu. Rejestrujemy zakres uprawnień. wysoka Wskazuje na brak kontroli zakresu (governance AI Act / model risk). Do przeglądu prawno-organizacyjnego.
Unauthorized tool call Nieautoryzowane wywołanie narzędzia — agent uruchamia akcję poza przyznanym zakresem RBAC/ACL. Rejestrujemy odrzucone/nieuprawnione wywołanie z audit-logu. krytyczna Prawdopodobny incydent bezpieczeństwa; możliwy obowiązek zgłoszenia DORA/NIS2/RODO. Do weryfikacji prawnika.

Przepływ obsługi incydentu

Ten sam szkielet evidence-first co reszta ipIII. Każdy krok wymaga śladu; domknięcie i powiadomienie organu wymagają jawnego zatwierdzenia przez człowieka (human-in-the-loop). Status całości: MVP.

1 · Zgłoszenie. Rejestracja typu z taksonomii, opis defensywny, system/agent, czas, zgłaszający. Bez payloadów.
2 · Evidence. Dołączenie artefaktów (logi wywołań, artefakt wyjścia modelu, zakres uprawnień) z hashem integralności. ROADMAP: podpis/znacznik czasu.
3 · Owner. Przypisanie właściciela incydentu odpowiedzialnego za triage i domknięcie.
4 · Legal trigger. Sprawdzenie decision-support, czy zgłoszenie może uruchomić obowiązek raportowy (DORA/NIS2/RODO/AI Act). Nie porada prawna — sygnał do przeglądu prawnika.
5 · Human approval. Człowiek zatwierdza kwalifikację, treść i decyzję o ewentualnym powiadomieniu organu. Żaden krok nie jest automatyczny.
6 · Report. Wygenerowanie raportu incydentu z ewidencją i chain-of-custody. ROADMAP: eksport pakietu dowodowego.

Status elementów (uczciwie)

MVP
Taksonomia + przepływ
szkielet decision-support na tej stronie
ROADMAP
Pipeline zgłoszeń
API/formularz, evidence-store, raport
8
Typy w taksonomii
defensywnie, bez payloadów
HITL
Human-in-the-loop
brak automatycznego zgłoszenia do organu
Legal trigger = wsparcie decyzji, nie porada. Kolumna legal-trigger i krok 4 przepływu to decision-support: pomagają zauważyć, że zgłoszenie może rodzić obowiązek raportowy. Ostateczna kwalifikacja prawna należy do radcy/kancelarii. Terminy i mapowania (DORA/NIS2/RODO/AI Act) są orientacyjne.
Wyłącznie defensywnie. Rejestr służy obronie i zgodności (GRC/blue). Opisy typów dotyczą skutków, objawów i detekcji — nie zawierają payloadów, promptów ani instrukcji przeprowadzenia. Dane w przykładach są syntetyczne. Testy bezpieczeństwa tylko po pisemnych Rules of Engagement.
Zgłoś incydent AI (ROADMAP). Docelowy formularz zgłoszeń jest w budowie (ROADMAP). Do czasu jego uruchomienia zgłoszenia kieruj przez /zglos. Poniższy formularz jest szkicem pól MVP (bez JS, bez wysyłki payloadów).

Powiązane: reakcja na prompt injection → /playbook-prompt-injection · reakcja na przejęcie agenta → /playbook-agent-hijack · zabezpieczenia agentów → /agent-security · ryzyko modelu → /model-risk.