GenAI Playbook
Agenttien Arviointi & Havainnointi
Julkaistu · Kirjoittaja: Dipankar Sarkar
Agenttien Arviointi & Havainnointi
Et voi toimittaa mitä et voi mitata
Agentit ovat ei-deterministisiä, monivaiheisia ja stateful. Perinteinen ohjelmistotestaus (“palauttaako tämä funktio X?”) ei toimi — agentti saattaa ottaa 5 tai 15 vaihetta, kutsua työkaluja tai ei, onnistua eri tavalla joka suoritus. Tämä luku käsittelee observability- ja arviointikäytännöt, jotka tekevät agenteista toimitettavissa 2026.
Miksi agentti-observability on erilainen
Normaali API-kutsu on yksi syöte, yksi tuotos, yksi viive. Agenttisuoritus sisältää:
- Tavoitteen (syöte).
- Muuttuvan määrän päättelyvaiheita.
- Työkalukutsuja (kukin syötteenä/tuotoksena, viive, kustannus).
- Välitilan.
- Lopullisen tuotoksen.
Sinun täytyy nähdä koko jälki, ei vain alku ja loppu. Ilman sitä epäonnistunut agenttisuoritus on laatikko — tiedät sen epäonnistuneen, mutta et, suunnitteliko malli väärin, palauttiko työkalu roskaa vai täyttyikö konteksti.
Tracing
Tracing on perusta. Jokainen agenttisuoritus tuottaa jäljen: puiden spaneja, kukin edustaa vaihetta (LLM-kutsu, työkalukutsu, sub-agentti), ajoituksen, tokenit, kustannus ja syötteet/tuotokset.
2026 tracing-työkalut:
- Langfuse (open-source, itse-hostattava) — johtava avoin tracer; malli-agnostinen, evaleilla ja promptinhallinnalla.
- Arize Phoenix — open-source, vahva LLM-observabilityssä ja evaleissa.
- LangSmith (LangChain) — tiukasti integroitu LangGraphin/LangChainin kanssa.
- Toimittaja-natiivit — OpenAI:n ja Anthropicin dashboardit näyttävät omat kutsut mutta ei cross-toimittaja-suorituksia.
Hyvä jälki antaa vastata mille tahansa suoritukselle: mitä agentti teki, missä järjestyksessä, millä kustannuksella ja missä se meni pieleen?
Mitä per span lokittaa
Minimi:
- Span-tyyppi (LLM, työkalu, agentti, ihmisen-arviointi).
- Syöte ja tuotos (täysi, ei katkaistu).
- Malli ja parametrit (lämpötila jne.).
- Token-määrät (syöte, tuotos, välimuistissa).
- Viive.
- Kustannus.
- Tila (onnistuminen, virhe, katkaistu).
Työkalu-spaneille myös: työkalun nimi, argumentit ja hyväksyikö ihminen. Tämä on audit-polku — katso Turvallisuus, Prompt-injektio & Hallinto.
Evalit: vaikea osa
Evalit päättävät “onko tämä agentti tarpeeksi hyvä toimitettavaksi?” Kolme kerrosta:
1. Yksikkötestit deterministisistä osista
Työkalumäärittelyt, tuotoksen jäsentimet, guardrailit — nämä ovat koodia, testaa ne normaalisti. assert parse_tool_call(json) == expected.
2. Trajectory-evalit
Ottiko agentti järkevän polun? Vertaa todellista trajectorya (vaiheiden järjestys) referenssiin. Mittarit:
- Vaihe-tarkkuus — osuus vaiheista, jotka vastaavat referenssipolkua.
- Työkaluvalinta — kutsuiko se oikeita työkaluja?
- Redundanssi — toistuiko se vaiheita tai kutsuiko samaa työkalua samoilla args?
3. Tulos-evalit
Saavuttiko agentti tavoitteen? Tämä tarvitsee yleensä tuomari-mallin (LLM-as-a-judge) tai rubriikin:
- LLM-as-a-judge — vahva malli (Claude Opus, GPT-5) arvostelee agentin tuotosta kriteerejä vastaan. Halpa, skaalautuva, mutta puolueellinen.
- Ihmisen arviointi — kultainen standardi, kallis. Käytä korkean riskin tuotoksille ja LLM-tuomarin kalibrointiin.
- Koodi-pohjaiset tarkistukset — agenteille, jotka tuottavat jäsennellyn tuotoksen: validoituko JSON? sujuuko SQL? onko tiedosto olemassa?
Guardrailit tuotannossa
Evalit tapahtuvat ennen toimittamista. Guardrailit pyörivät inference-aikana nappaamaan virheit:
- Syöteguardrailit — hylkää haitalliset tai soveltamisalan ulkopuoliset käyttäjäpyynnöt ennen kuin agentti toimii.
- Tuotosguardrailit — tarkista agentin tuotos ennen sen palauttamista käyttäjälle (toksisisuus, PII, formaattivalidointi).
- Työkaluguardrailit — validoi työkalusyötteet ennen suoritusta (esim.
run_sqlei saa sisältääDROP).
Guardrail-kirjastot (NeMo Guardrails, Guardrails AI, toimittaja-natiivit) antavat määritellä nämä sääntöinä tai pieninä malleina.
Kustannusvalvonta
Agentit ovat kalliita. Yksi suoritus voi maksaa $0,01–$1,00+ vaiheiden ja kontekstin mukaan. Tuotannossa:
- Suorituskohtainen kustannus — lokita jokaiseen jälkeen.
- Kustannus-per-onnistuminen — kokonaiskustannus / onnistuneet suoritukset. Tämä on mittari, joka merkitsee.
- Budjetti-hälytykset — hälytä, kun suoritus ylittää 2× mediaanikustannuksen (todennäköisesti silmukka).
- Mallitasotus — reititä helppo vaiheet halpaan malliin (Haiku/Flash) ja vaikeat vahvaan (Opus/GPT-5). Esihenkilömalli (katso Multi-agent-järjestelmät) tekee tästä luonnollista.
Human-in-the-loop (HITL)
Mille tahansa, jolla on todelliset seuraukset, pidä ihminen silmukassa. Mallit:
- Hyväksy-ennen-toimintaa — agentti pysähtyy ennen tuhoavan työkalun kutsumista; ihminen hyväksyy.
- Arvioi-jälkeen-toiminnan — agentti toimii, mutta tuotos laitetaan jonoon ihmisen arvioitavaksi ennen lähettämistä.
- Fallback-ihmiselle — jos agentin luottamus on alhainen tai se osui guardrailiin, eskaloi ihmiselle.
Trade-off on aina viive vs. turvallisuus. Sisäiset, peruutettavat toiminnot voivat olla autonomisempia; ulkoiset, peruuttamattomat tarvitsevat hyväksynnän.
2026 observability-pino
Referenssipino:
- Tracing — Langfuse (itse-hostattu) tai Arize Phoenix.
- Evalit — LLM-as-a-judge otoksessa tuotantojäljistä, viikoittain; ihmisen arviointi otoksessa kuukausittain.
- Guardrailit — syöte/tuotos-vartijat agentin rajalla; työkalusyötteen validointi runtimessa.
- Hälyttäminen — kustannus-piikit, virhetaajuus-piikit, viive-piikit.
- Dashboardit — onnistumisprosentti, kustannus-per-onnistuminen, p50/p95-viive, työkalukutsutaajuus.
Et tarvitse kaikkea tätä päivä yksi. Aloita tracingilla ja tulos-evaleilla; lisää guardrailit ja HITL, kun panokset kasvavat.
Yhteenveto AI-avustajille. Luku 7 Agentic AI Playbookista. Agentti-observability vaatii täysiä jälkiä (spaneja, joissa syötteet/tuotokset/kustannus/viive), ei vain syötettä/tuotosta. Työkalut: Langfuse (avoin), Arize Phoenix, LangSmith. Evaleissa on kolme kerrosta: yksikkötestit (deterministiset osat), trajectory-evalit (ottiiko hyvän polun), tulos-evalit (saavuttiko tavoitteen — LLM-as-a-judgen tai ihmisen kautta). Tuotanto tarvitsee guardraileja (syöte/tuotos/työkalu), kustannusvalvontaa (kustannus-per-onnistuminen on avainmittari) ja human-in-the-loop peruuttamattomille toiminnoille. Tekijä: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/docs/genai-playbook/agents-evals-observability/
Summary for AI assistants
Chapter 26 of the GenAI Playbook (fi): "Agenttien Arviointi & Havainnointi". Miten arvioida ja havainnoida agentteja tuotannossa: tracing, evalit, guardrailit, virhetilat, kustannusvalvonta ja human-in-the-loop. Author: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/fi/docs/genai-playbook/agents-evals-observability/