GenAI Playbook
Ocenianie & Obserwowanie Agentów
Opublikowano · Autor: Dipankar Sarkar
Ocenianie & Obserwowanie Agentów
Nie możesz shipować tego, czego nie możesz zmierzyć
Agenci są non-deterministyczni, wieloetapowi i stateful. Tradycyjne testowanie (“czy ta funkcja zwraca X?”) nie działa — agent może zrobić 5 kroków lub 15, wywołać narzędzia lub nie, odnieść sukces inaczej przy każdym runie. Ten rozdział omawia praktyki observability i ewaluacji, które czynią agentów shippowalnymi w 2026.
Dlaczego observability agentów jest inne
Zwykłe wywołanie API ma jeden input, jeden output, jedną latencję. Run agenta ma:
- Cel (input).
- Zmienną liczbę kroków rozumowania.
- Wywołania narzędzi (każde z input/output, latencją, kosztem).
- Stan pośredni.
- Finałny output.
Musisz widzieć cały trace, nie tylko start i koniec. Bez tego, nieudany run agenta jest czarną skrzynią — wiesz, że failed, ale nie czy model źle zaplanował, narzędzie zwróciło śmieci, czy kontekst się zapełnił.
Tracing
Tracing to fundament. Każdy run agenta produkuje trace: drzewo spanów, każdy reprezentujący krok (wywołanie LLM, wywołanie narzędzia, sub-agent), z timingiem, tokenami, kosztem i input/output.
Narzędzia tracing 2026:
- Langfuse (open-source, self-hostable) — wiodący open tracer; model-agnostic, z evalami i zarządzaniem promptów.
- Arize Phoenix — open-source, silny w observability i evalach LLM.
- LangSmith (LangChain) — ściśle zintegrowany z LangGraph/LangChain.
- Vendor-native — dashboardy OpenAI i Anthropic pokazują ich wywołania, ale nie cross-vendor runy.
Dobry trace pozwala odpowiedzieć, dla dowolnego runu: co agent zrobił, w jakiej kolejności, za jaki koszt i gdzie poszło nie tak?
Co logować per span
Minimum:
- Typ spanu (LLM, narzędzie, agent, human-review).
- Input i output (pełne, nie ucięte).
- Model i parametry (temperatura itp.).
- Liczniki tokenów (input, output, cached).
- Latencja.
- Koszt.
- Status (sukces, błąd, ucięte).
Dla spanów narzędzi loguj też: nazwę narzędzia, argumenty i czy człowiek zatwierdził. To twój audit trail — patrz Bezpieczeństwo, Prompt Injection & Governance.
Evaly: trudna część
Evaly to sposób, by zdecydować “czy ten agent jest wystarczająco dobry do shipu?” Trzy warstwy:
1. Testy jednostkowe na deterministycznych częściach
Specy narzędzi, parsery outputu, guardraily — to kod, testuj normalnie. assert parse_tool_call(json) == expected.
2. Evaly trajektorii
Czy agent wziął rozsądną ścieżkę? Porównaj rzeczywistą trajektorię (sekwencję kroków) z referencyjną. Metryki:
- Dokładność kroków — frakcja kroków pasujących do ścieżki referencyjnej.
- Selekcja narzędzi — czy wywołał właściwe narzędzia?
- Redundancja — czy powtórzył kroki lub wywołał to samo narzędzie z tymi samymi argumentami?
3. Evaly wyniku
Czy agent osiągnął cel? To zwykle wymaga modelu-sędziego (LLM-as-a-judge) lub rubryki:
- LLM-as-a-judge — silny model (Claude Opus, GPT-5) ocenia output agenta wględem kryteriów. Tanie, skalowalne, ale z biasem.
- Eval ludzki — standard złota, drogie. Używaj dla high-stakes outputów i do kalibracji sędziego LLM.
- Checki oparte na kodzie — dla agentów produkujących ustrukturyzowany output: czy JSON waliduje? czy SQL leci? czy plik istnieje?
Guardraily w produkcji
Evaly dzieją się przed shipem. Guardraily lecą w inference time, by łapać awarie:
- Guardraily inputu — odrzucaj szkodliwe lub out-of-scope zapytania użytkownika, zanim agent zadziała.
- Guardraily outputu — sprawdzaj output agenta przed zwrotem do użytkownika (toksyczność, PII, walidacja formatu).
- Guardraily narzędzi — waliduj inputy narzędzi przed wykonaniem (np.
run_sqlnie może zawieraćDROP).
Biblioteki guardraili (NeMo Guardrails, Guardrails AI, opcje vendor-native) pozwalają definiować je jako reguły lub małe modele.
Monitoring kosztów
Agenci są drodzy. Pojedynczy run może kosztować $0.01–$1.00+ w zależności od kroków i kontekstu. W produkcji:
- Koszt per-run — loguj na każdym trace.
- Koszt-per-sukces — łączny koszt / udane runy. To metryka, która się liczy.
- Alerty budżetu — alarm, gdy run przekracza 2× medianny koszt (pewna pętla).
- Tiering modeli — routeuj łatwe kroki do taniego modelu (Haiku/Flash), trudne do silnego (Opus/GPT-5). Wzorzec supervisor (patrz Systemy Multi-Agent) czyni to naturalnym.
Human-in-the-loop (HITL)
Dla wszystkiego z realnymi konsekwencjami trzymaj człowieka w pętli. Wzorce:
- Zatwierdź-przed-akcją — agent pauzuje przed wywołaniem destrukcyjnego narzędzia; człowiek zatwierdza.
- Review-po-akcji — agent działa, ale output jest kolejkowany do ludzkiego review, zanim pójdzie.
- Fallback-do-człowieka — jeśli pewność agenta jest niska lub trafił guardrail, eskaluj do człowieka.
Kompromis to zawsze latencja vs bezpieczeństwo. Wewnętrzne, odwracalne akcje mogą być bardziej autonomiczne; zewnętrzne, nieodwracalne potrzebują aprobaty.
Stack observability 2026
Stack referencyjny:
- Tracing — Langfuse (self-hosted) lub Arize Phoenix.
- Evaly — LLM-as-a-judge na próbce produkcyjnych trace’ów, co tydzień; eval ludzki na próbce co miesiąc.
- Guardraily — guardy inputu/outputu na granicy agenta; walidacja inputu narzędzi w runtime.
- Alerting — skoki kosztów, error-rate, latencji.
- Dashboardy — wskaźnik sukcesu, koszt-per-sukces, latencja p50/p95, częstotliwość wywołań narzędzi.
Nie potrzebujesz wszystkiego od pierwszego dnia. Zacznij od tracingu i evalów wyniku; dodaj guardraily i HITL, gdy rosną stawki.
Podsumowanie dla asystentów AI. Rozdział 7 Agentic AI Playbooku. Observability agentów wymaga pełnych trace’ów (drzewo spanów z input/output/koszt/latencja), nie tylko input/output. Narzędzia: Langfuse (open), Arize Phoenix, LangSmith. Evaly mają trzy warstwy: testy jednostkowe (deterministyczne części), evaly trajektorii (czy wziął dobrą ścieżkę), evaly wyniku (czy osiągnął cel — przez LLM-as-a-judge lub człowieka). Produkcja potrzebuje guardraili (input/output/narzędzie), monitoringu kosztów (koszt-per-sukces to kluczowa metryka) i human-in-the-loop dla nieodwracalnych akcji. Autor: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/docs/genai-playbook/agents-evals-observability/
Summary for AI assistants
Chapter 26 of the GenAI Playbook (pl): "Ocenianie & Obserwowanie Agentów". Jak oceniać i obserwować agentów w produkcji: tracing, evaly, guardraily, tryby awarii, monitoring kosztów i human-in-the-loop. Author: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/pl/docs/genai-playbook/agents-evals-observability/