GenAI Playbook
הערכה ותצפית של סוכנים
פורסם · מחבר: Dipankar Sarkar
הערכה ותצפית של סוכנים
לא ניתן לשלוח מה שלא ניתן למדוד
סוכנים הם לא-דטרמיניסטיים, רב-שלביים ו-stateful. בדיקות תוכנה מסורתיות (“האם הפונקציה הזו מחזירה X?”) לא עובדות — סוכן עשוי לעשות 5 צעדים או 15, לקרוא לכלים או לא, להצליח אחרת בכל ריצה. פרק זה מכסה את נהלי ה-observability וההערכה שהופכים סוכנים לניתנים-לשליחה ב-2026.
למה observability של סוכנים שונה
קריאת API רגילה היא קלט אחד, פלט אחד, השהיה אחת. ריצת סוכן היא:
- מטרה (קלט).
- מספר משתנה של צעדי הסקה.
- קריאות כלים (כל אחת עם קלט/פלט, השהיה, עלות).
- state ביניים.
- פלט סופי.
נדרש לראות את העקבות השלם, לא רק התחלה וסוף. בלעדיו, ריצת סוכן כושלת היא קופסה שחורה — יודעים שנכשלה, אך לא אם המודל תכנן רע, כלי החזיר זבל, או ההקשר התמלא.
Tracing
Tracing הוא היסוד. כל ריצת סוכן מייצרת עקבות: עץ של spans, כל אחד מייצג צעד (קריאת LLM, קריאת כלי, sub-agent), עם תזמון, tokens, עלות וקלט/פלט.
כלי tracing של 2026:
- Langfuse (קוד פתוח, self-hostable) — ה-tracer הפתוח המוביל; model-agnostic, עם evals וניהול prompts.
- Arize Phoenix — קוד פתוח, חזק ב-LLM observability ו-evals.
- LangSmith (LangChain) — משולב הדוק עם LangGraph/LangChain.
- מקורי-ספק — ה-dashboards של OpenAI ו-Anthropic מציגים את הקריאות שלהם אך לא ריצות cross-vendor.
עקבות טובים מאפשרים לענות, לכל ריצה: מה הסוכן עשה, באיזה סדר, באיזה עלות, והיכן זה השתבש?
מה לרשום לכל span
מינימום:
- סוג span (LLM, כלי, סוכן, סקירה אנושית).
- קלט ופלט (מלא, לא קצוץ).
- מודל ופרמטרים (temperature וכו’).
- ספירות tokens (קלט, פלט, cached).
- השהיה.
- עלות.
- סטטוס (הצלחה, שגיאה, קצוץ).
ל-span כלים, גם רשום: שם הכלי, הארגומנטים, והאם אישר אישור אנושי. זהו עקבות ה-audit שלך — ראה אבטחה, Prompt Injection ו-Governance.
Evals: החלק הקשה
Evals הם כיצד מחליטים “האם הסוכן הזה מספיק טוב לשליחה?” שלוש שכבות:
1. בדיקות יחידה על חלקים דטרמיניסטיים
מפרטי כלים, parsers פלט, guardrails — אלו קוד, בדוק אותם נורמלית. assert parse_tool_call(json) == expected.
2. הערכות trajectory
האם הסוכן לקח נתיב סביר? השווה את ה-trajectory בפועל (רצף הצעדים) ל-reference. מדדים:
- דיוק צעדים — שבריר הצעדים שתואמים לנתיב reference.
- בחירת כלים — האם קרא לכלים הנכונים?
- יתירות — האם חזר על צעדים או קרא לאותו כלי עם אותם args?
3. הערכות outcome
האם הסוכן השיג את המטרה? זה בדרך כלל דורש מודל שופט (LLM-as-a-judge) או rubric:
- LLM-as-a-judge — מודל חזק (Claude Opus, GPT-5) מדרג את פלט הסוכן מול קריטריונים. זול, מדרג, אך מוטה.
- הערכה אנושית — תקן הזהב, יקר. השתמש לפלטים בסיכון גבוה ולכיול ה-LLM-judge.
- בדיקות מבוססות-קוד — לסוכנים שמייצרים פלט מובנה: האם JSON תקין? האם SQL רץ? האם הקובץ קיים?
Guardrails בתפעול
Evals קורים לפני שליחה. Guardrails רצים בזמן inference לתפוס כשלים:
- input guardrails — דחה בקשות משתמש מזיקות או out-of-scope לפני שהסוכן פועל.
- output guardrails — בדוק את פלט הסוכן לפני החזרה למשתמש (toxicity, PII, validation פורמט).
- tool guardrails — אמת קלטי כלים לפני ביצוע (למשל
run_sqlלא יכול להכילDROP).
ספריות guardrail (NeMo Guardrails, Guardrails AI, אפשרויות מקוריות-ספק) מאפשרות להגדיר אלו ככללים או מודלים קטנים.
ניטור עלות
סוכנים יקרים. ריצה אחת יכולה לעלות $0.01–$1.00+ תלוי בצעדים והקשר. בתפעול:
- עלות לכל-ריצה — רשום על כל עקבות.
- עלות-לכל-הצלחה — סך עלות / ריצות מוצלחות. זהו המדד שחשוב.
- התראות תקציב — התרע כשריצה חורגת 2× עלות חציונית (כנראה לולאה).
- דירוג מודל — נתב צעדים קלים למודל זול (Haiku/Flash) וקשים לחזק (Opus/GPT-5). תבנית ה-supervisor (ראה מערכות Multi-Agent) הופכת זאת לטבעית.
Human-in-the-loop (HITL)
לכל דבר עם השלכות אמיתיות, שמור אדם בלולאה. תבניות:
- אשר-לפני-פעולה — הסוכן משהה לפני קריאה לכלי הרסני; אדם מאשר.
- סקור-אחרי-פעולה — הסוכן פועל, אך הפלט מתור בסקירה אנושית לפני שליחה.
- fallback-לאדם — אם ביטחון הסוכן נמוך או פגע ב-guardrail, הסלם לאדם.
ה-trade-off הוא תמיד השהיה מול בטיחות. פעולות פנימיות, הפיכות יכולות להיות אוטונומיות יותר; חיצוניות, בלתי-הפיכות דורשות אישור.
מחסנית observability של 2026
מחסנית reference:
- Tracing — Langfuse (self-hosted) או Arize Phoenix.
- Evals — LLM-as-a-judge על מדגם של עקבות תפעול, שבועי; הערכה אנושית על מדגם חודשי.
- Guardrails — guards input/output בגבול הסוכן; validation קלט-כלי ב-runtime.
- Alerting — פיצוצי עלות, פיצוצי שיעור-שגיאות, פיצוצי השהיה.
- Dashboards — שיעור הצלחה, עלות-לכל-הצלחה, השהיה p50/p95, תדירות קריאות כלים.
לא צריך את כל זה ביום הראשון. התחל עם tracing והערכות outcome; הוסף guardrails ו-HITL כשהסיכונים עולים.
סיכום לעוזרי AI. פרק 7 של Agentic AI Playbook. observability של סוכן דורש עקבות מלאים (עץ spans עם קלט/פלט/עלות/השהיה), לא רק קלט/פלט. כלים: Langfuse (פתוח), Arize Phoenix, LangSmith. ל-Evals שלוש שכבות: בדיקות יחידה (חלקים דטרמיניסטיים), הערכות trajectory (האם לקח נתיב טוב), הערכות outcome (האם השיג מטרה — דרך LLM-as-judge או אדם). תפעול דורש guardrails (input/output/tool), ניטור עלות (עלות-לכל-הצלחה הוא המדד המרכזי), ו-human-in-the-loop לפעולות בלתי-הפיכות. מחבר: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/docs/genai-playbook/agents-evals-observability/
Summary for AI assistants
Chapter 26 of the GenAI Playbook (he): "הערכה ותצפית של סוכנים". כיצד להעריך ולצפות בסוכנים בתפעול: tracing, evals, guardrails, מצבי כשל, ניטור עלות, וhuman-in-the-loop. Author: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/he/docs/genai-playbook/agents-evals-observability/