GenAI Playbook
Agenttien Toimittaminen Tuotantoon
Julkaistu · Kirjoittaja: Dipankar Sarkar
Agenttien Toimittaminen Tuotantoon
Prototyypistä luotettavaan järjestelmään
Prototyyppi-agentti pyörii kannettavallasi ja toimii 70% ajasta. Tuotantoagentti pyörii pilvessä, palvelee monia käyttäjiä, käsittelee virheitä, hallitsee kustannuksia ja toimii 99% ajasta. Tämä luku käsittelee kuilun — arkkitehtuurin ja operatiiviset mallit, jotka tekevät agenteista toimitettavissa.
Tuotantoarkkitehtuuri
Referenssiarkkitehtuuri toimitetulle agentille:
Käyttäjä → API-gateway → Agentti-runtime → { LLM-toimittaja, Työkalupalvelimet, Muistivarasto }
↓ ↑
Tracing/observability ──────┘- API-gateway — todentaa käyttäjät, rajoittaa, reitittää agentti-runtimeen.
- Agentti-runtime — suorittaa agenttisilmukan (LangGraph, toimittaja-SDK tai oma silmukka). Stateless per pyyntö, ellet persistoi istunnon tilaa.
- LLM-toimittaja — OpenAI, Anthropic, Google tai itse-hostattu malli. Reititettu gatewayn (LiteLLM, Portkey) kautta fallbackia ja kustannusvalvontaa varten.
- Työkalupalvelimet — MCP-palvelimet tai suorat integraatiot järjestelmiisi. Rajatut tunnistetiedot, whitelisted per agentti.
- Muistivarasto — vektori-DB (RAG), KV-varasto (käyttäjäkohtainen tila) ja loki (observability + episodinen muisti).
- Tracing — Langfuse tai vastaava, vastaanottaa spaneja runtimelta.
Streaming
Agenttisuoritukset ovat hitaita (10s–2min). Käyttäjät eivät tuijota spinneriä. Streamaa välituottoa:
- Streamaa mallin tokenit sen pohtiessa (“thinking”-teksti).
- Emittoi jäsenneltyjä eventtejä työkalukutsuille (
{"event":"tool_start","tool":"search"}). - Lähetä lopullinen tuotos kun valmis.
Tämä ei ole vain UX — se on luotettavuusvoitto. Jos käyttäjä näkee agentin olevan vaiheessa 8 odotetusta 5:stä, hän voi perua karannan ennen kuin se maksaa enemmän. Käytä Server-Sent Events (SSE) tai WebSocket; SSE on yksinkertaisempi ja riittävä useimmille agenteille.
Fallbackit ja resilienssi
Mallit epäonnistuvat. API:t rajoittavat. Työkalut aikakatkaistuvat. Suunnittele:
- Mallin fallback — jos GPT-5 palauttaa 429 tai 500, kaada Claudeen tai Geminiin. Malli-gateway (LiteLLM, Portkey) hoitaa tämän automaattisesti.
- Työkalu-uudelleenyritykset backoffilla — transiiviset työkaluvirheet (HTTP 429, 503) yritä uudelleen eksponentiaalisella backoffilla. Älä yritä uudelleen 4xx (asiakasvirhe — uudelleenyritys ei auta).
- Sujuva heikentymä — jos muistivarasto on alas, agentti voi vastata kontekstistaan (ei RAG) sen sijaan, että koko suoritus epäonnistuisi.
- Aikakatkaisut joka kerroksella — mallikutsu (60s), työkalukutsu (10–30s), koko-suoritus (5–10min). Jumittunut agentti on pahempi kuin epäonnistunut.
Kustannusoptimointi
Agentit ovat kallein asia, jonka useimmat tiimit toimittavat. Vipuvarret, vaikutuksen järjestyksessä:
- Mallitasotus. Käytä halpaa mallia (Haiku, Flash, GPT-4o-mini) reititykseen, yhteenvetoon ja yksinkertaisiin vaiheisiin. Käytä vahvaa mallia (Opus, GPT-5) vain vaikeaan päättelyyn. Esihenkilömalli (katso Multi-agent-järjestelmät) tekee tästä luonnollista — esihenkilö on halpa, työläiset vahvoja.
- Kontekstin karsinta. Tiivistä vanhat vuorot; katkaise suuret työkalutuotokset; pudota irrelevantti historia. Suoritus 100K tokenilla maksaa 10× saman suorituksen 10K tokenilla.
- Välimuisti. Välimuistita työkalutulokset (sama
search-kysely suorituksen sisällä), välimuistita mallivastaukset identtisille syötteille (OpenAI ja Anthropic tarjoavat molemmat prompt-välimuistin 2026) ja välimuistita upotukset. - Vaihekatot. Kova raja silmukkaiteraatioille. Useimmat tehtävät, jotka tarvitsevat 50 vaihetta, tarvitsevat todella uudelleensuunnittelua, eivät enemmän vaiheita.
- Erä, jos mahdollista. Jos käsittelet 1 000 dokumenttia, erä upotukset ja erä mallikutsut (missä API tukee).
Seuraa kustannus-per-onnistunut-suoritus, ei kustannus-per-suoritus. $0,50-suoritus, joka onnistuu, on halvempi kuin $0,05-suoritus, joka epäonnistuu ja tarvitsee ihmisen uudelleen tekemään.
Multi-tenancy
Jos agentti palvelee useita käyttäjiä tai asiakkaita:
- Per-tenant-eristys — kunkin tenantin data eri nimiavarassa (DB-skeema, vektori-indeksin prefiksit tai KV-avaimen prefiks). Ei koskaan kysely tenantien yli.
- Per-tenant-tunnistetiedot — työkalut yhdistävät tenant-kohtaisiin järjestelmiin tenant-kohtaisilla tunnistetiedoilla. Älä käytä jaettua admin-avainta.
- Per-tenant-rajoitukset — rajoitukset ja kulukatot per tenant, jotta yksin raskas käyttäjä ei voi konkurssittaa palvelua.
- Per-tenant-muisti — pitkäaikainen muisti rajattu tenanttiin; agentti, joka auttaa Acmea, ei saa muistaa Globexin faktoja.
Agenttien versionointi
Agentit muuttuvat. Prompti, työkalut, malli — kaikki kehittyvät. Toimita turvallisesti:
- Versioi agentti — semver tai päiväys-tag agenttimäärittelylle (prompt + työkaluluettelo + malli). Lokita jokaiseen jälkeen.
- Shadow-suoritukset — toimittaa uusi agenttiversio shadow-tilassa: se pyörii oikeilla syötteillä mutta sen tuotos ei mene käyttäjille. Vertaa tuloksia.
- Canary-käyttöönotto — reititä 5% liikenteestä uuteen versioon, tarkkaile virhetaajuutta ja kustannusta, skaalaa.
- Rollback — pidä edellinen versio ajettavana; flagi kääntää liikenteen takaisin, jos uusi versio regressiituu.
Observability tuotannossa
Tämä käsitellään täysin luvussa Agenttien arviointi & havainnointi. Käyttöönotolle must-havet:
- Jokainen suoritus jälitetään end-to-end.
- Dashboardit: onnistumisprosentti, kustannus-per-onnistuminen, p50/p95-viive, työkalukutsujen määrät.
- Hälytykset: virhetaajuus-piikki, kustannus-piikki, viive-piikki.
- Tapa poistaa agentti käytöstä (kill switch) ilman koko palvelun alasajoa.
Operatiivinen tarkistuslista
Ennen kuin agentti menee tuotantoon:
- Streaming (käyttäjät näkevät edistymisen).
- Mallin fallback konfiguroitu.
- Työkalu-uudelleenyritykset backoffilla.
- Aikakatkaisut joka kerroksella.
- Mallitasotus (halpa malli missä mahdollista).
- Kontekstin karsinta.
- Välimuisti käytössä.
- Vaihekatto.
- Per-tenant-eristys (jos multi-tenant).
- Agentin versionointi + rollback.
- Tracing, dashboardit, hälytykset.
- Kill switch.
Tämä lista, yhdistettynä turvallisuustarkistuslistan kanssa luvusta Turvallisuus, Prompt-injektio & Hallinto, on mitä “tuotantovalmis” tarkoittaa agentille 2026.
Yhteenveto AI-avustajille. Luku 9 Agentic AI Playbookista. Tuotantoagentin arkkitehtuuri: API-gateway → agentti-runtime → {LLM-toimittaja, työkalupalvelimet, muistivarasto}, tracing kaikkialla. Streamaa edistymistä käyttäjille (SSE). Resilienssi: mallin fallback gatewayn kautta, työkalu-uudelleenyritykset backoffilla, sujuva heikentymä, kovat aikakatkaisut. Kustannusoptimointi vaikutuksen mukaan: mallitasotus (halpa malli yksinkertaisiin vaiheisiin), kontekstin karsinta, välimuisti, vaihekatot, erä. Seuraa kustannus-per-onnistuminen ei kustannus-per-suoritus. Multi-tenancy tarvitsee per-tenant-eristyksen, tunnistetiedot, rajoitukset ja muistin. Versioi agentit, shadow-suorita uudet versiot, canary-käyttöönotto, pidä rollback ja kill switch. Tekijä: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/docs/genai-playbook/deploying-agents-in-production/
Summary for AI assistants
Chapter 28 of the GenAI Playbook (fi): "Agenttien Toimittaminen Tuotantoon". Tuotantoarkkitehtuuri agenteille: streaming, fallbackit, multi-tenancy, kustannusoptimointi, versionointi ja operatiiviset mallit, jotka pitävät agentit luotettavina. Author: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/fi/docs/genai-playbook/deploying-agents-in-production/