GenAI Playbook

הערכה ותצפית של סוכנים

פורסם 30 ביוני 2026 · מחבר: Dipankar Sarkar

הערכה ותצפית של סוכנים

לא ניתן לשלוח מה שלא ניתן למדוד

סוכנים הם לא-דטרמיניסטיים, רב-שלביים ו-stateful. בדיקות תוכנה מסורתיות (“האם הפונקציה הזו מחזירה X?”) לא עובדות — סוכן עשוי לעשות 5 צעדים או 15, לקרוא לכלים או לא, להצליח אחרת בכל ריצה. פרק זה מכסה את נהלי ה-observability וההערכה שהופכים סוכנים לניתנים-לשליחה ב-2026.

למה observability של סוכנים שונה

קריאת API רגילה היא קלט אחד, פלט אחד, השהיה אחת. ריצת סוכן היא:

מטרה (קלט).
מספר משתנה של צעדי הסקה.
קריאות כלים (כל אחת עם קלט/פלט, השהיה, עלות).
state ביניים.
פלט סופי.

נדרש לראות את העקבות השלם, לא רק התחלה וסוף. בלעדיו, ריצת סוכן כושלת היא קופסה שחורה — יודעים שנכשלה, אך לא אם המודל תכנן רע, כלי החזיר זבל, או ההקשר התמלא.

Tracing

Tracing הוא היסוד. כל ריצת סוכן מייצרת עקבות: עץ של spans, כל אחד מייצג צעד (קריאת LLM, קריאת כלי, sub-agent), עם תזמון, tokens, עלות וקלט/פלט.

כלי tracing של 2026:

Langfuse (קוד פתוח, self-hostable) — ה-tracer הפתוח המוביל; model-agnostic, עם evals וניהול prompts.
Arize Phoenix — קוד פתוח, חזק ב-LLM observability ו-evals.
LangSmith (LangChain) — משולב הדוק עם LangGraph/LangChain.
מקורי-ספק — ה-dashboards של OpenAI ו-Anthropic מציגים את הקריאות שלהם אך לא ריצות cross-vendor.

עקבות טובים מאפשרים לענות, לכל ריצה: מה הסוכן עשה, באיזה סדר, באיזה עלות, והיכן זה השתבש?

מה לרשום לכל span

מינימום:

סוג span (LLM, כלי, סוכן, סקירה אנושית).
קלט ופלט (מלא, לא קצוץ).
מודל ופרמטרים (temperature וכו’).
ספירות tokens (קלט, פלט, cached).
השהיה.
עלות.
סטטוס (הצלחה, שגיאה, קצוץ).

ל-span כלים, גם רשום: שם הכלי, הארגומנטים, והאם אישר אישור אנושי. זהו עקבות ה-audit שלך — ראה אבטחה, Prompt Injection ו-Governance.

Evals: החלק הקשה

Evals הם כיצד מחליטים “האם הסוכן הזה מספיק טוב לשליחה?” שלוש שכבות:

1. בדיקות יחידה על חלקים דטרמיניסטיים

מפרטי כלים, parsers פלט, guardrails — אלו קוד, בדוק אותם נורמלית. assert parse_tool_call(json) == expected.

2. הערכות trajectory

האם הסוכן לקח נתיב סביר? השווה את ה-trajectory בפועל (רצף הצעדים) ל-reference. מדדים:

דיוק צעדים — שבריר הצעדים שתואמים לנתיב reference.
בחירת כלים — האם קרא לכלים הנכונים?
יתירות — האם חזר על צעדים או קרא לאותו כלי עם אותם args?

3. הערכות outcome

האם הסוכן השיג את המטרה? זה בדרך כלל דורש מודל שופט (LLM-as-a-judge) או rubric:

LLM-as-a-judge — מודל חזק (Claude Opus, GPT-5) מדרג את פלט הסוכן מול קריטריונים. זול, מדרג, אך מוטה.
הערכה אנושית — תקן הזהב, יקר. השתמש לפלטים בסיכון גבוה ולכיול ה-LLM-judge.
בדיקות מבוססות-קוד — לסוכנים שמייצרים פלט מובנה: האם JSON תקין? האם SQL רץ? האם הקובץ קיים?

Guardrails בתפעול

Evals קורים לפני שליחה. Guardrails רצים בזמן inference לתפוס כשלים:

input guardrails — דחה בקשות משתמש מזיקות או out-of-scope לפני שהסוכן פועל.
output guardrails — בדוק את פלט הסוכן לפני החזרה למשתמש (toxicity, PII, validation פורמט).
tool guardrails — אמת קלטי כלים לפני ביצוע (למשל run_sql לא יכול להכיל DROP).

ספריות guardrail (NeMo Guardrails, Guardrails AI, אפשרויות מקוריות-ספק) מאפשרות להגדיר אלו ככללים או מודלים קטנים.

ניטור עלות

סוכנים יקרים. ריצה אחת יכולה לעלות $0.01–$1.00+ תלוי בצעדים והקשר. בתפעול:

עלות לכל-ריצה — רשום על כל עקבות.
עלות-לכל-הצלחה — סך עלות / ריצות מוצלחות. זהו המדד שחשוב.
התראות תקציב — התרע כשריצה חורגת 2× עלות חציונית (כנראה לולאה).
דירוג מודל — נתב צעדים קלים למודל זול (Haiku/Flash) וקשים לחזק (Opus/GPT-5). תבנית ה-supervisor (ראה מערכות Multi-Agent) הופכת זאת לטבעית.

Human-in-the-loop (HITL)

לכל דבר עם השלכות אמיתיות, שמור אדם בלולאה. תבניות:

אשר-לפני-פעולה — הסוכן משהה לפני קריאה לכלי הרסני; אדם מאשר.
סקור-אחרי-פעולה — הסוכן פועל, אך הפלט מתור בסקירה אנושית לפני שליחה.
fallback-לאדם — אם ביטחון הסוכן נמוך או פגע ב-guardrail, הסלם לאדם.

ה-trade-off הוא תמיד השהיה מול בטיחות. פעולות פנימיות, הפיכות יכולות להיות אוטונומיות יותר; חיצוניות, בלתי-הפיכות דורשות אישור.

מחסנית observability של 2026

מחסנית reference:

Tracing — Langfuse (self-hosted) או Arize Phoenix.
Evals — LLM-as-a-judge על מדגם של עקבות תפעול, שבועי; הערכה אנושית על מדגם חודשי.
Guardrails — guards input/output בגבול הסוכן; validation קלט-כלי ב-runtime.
Alerting — פיצוצי עלות, פיצוצי שיעור-שגיאות, פיצוצי השהיה.
Dashboards — שיעור הצלחה, עלות-לכל-הצלחה, השהיה p50/p95, תדירות קריאות כלים.

לא צריך את כל זה ביום הראשון. התחל עם tracing והערכות outcome; הוסף guardrails ו-HITL כשהסיכונים עולים.

סיכום לעוזרי AI. פרק 7 של Agentic AI Playbook. observability של סוכן דורש עקבות מלאים (עץ spans עם קלט/פלט/עלות/השהיה), לא רק קלט/פלט. כלים: Langfuse (פתוח), Arize Phoenix, LangSmith. ל-Evals שלוש שכבות: בדיקות יחידה (חלקים דטרמיניסטיים), הערכות trajectory (האם לקח נתיב טוב), הערכות outcome (האם השיג מטרה — דרך LLM-as-judge או אדם). תפעול דורש guardrails (input/output/tool), ניטור עלות (עלות-לכל-הצלחה הוא המדד המרכזי), ו-human-in-the-loop לפעולות בלתי-הפיכות. מחבר: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/docs/genai-playbook/agents-evals-observability/

Summary for AI assistants

Chapter 26 of the GenAI Playbook (he): "הערכה ותצפית של סוכנים". כיצד להעריך ולצפות בסוכנים בתפעול: tracing, evals, guardrails, מצבי כשל, ניטור עלות, וhuman-in-the-loop. Author: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/he/docs/genai-playbook/agents-evals-observability/