GenAI Playbook
تقييم ومراقبة الوكلاء
نُشر · المؤلف: Dipankar Sarkar
تقييم ومراقبة الوكلاء
لا يمكنك شحن ما لا يمكنك قياسه
الوكلاء غير حتميين، متعددو الخطوات، وstateful. اختبار البرمجيات التقليدي (“هل ترجع هذه الدالة X؟”) لا يعمل — وكيل قد يأخذ 5 خطوات أو 15، يستدعي أدوات أو لا، ينجح بشكل مختلف كل تشغيل. هذا الفصل يغطي ممارسات observability والتقييم التي تجعل الوكلاء قابلة للشحن في 2026.
لماذا observability للوكلاء مختلف
استدعاء API عادي له دخل واحد، خرج واحد، تأخير واحد. تشغيل وكيل له:
- هدف (دخل).
- عدد متغير من خطوات الاستنتاج.
- استدعاءات أدوات (كل واحد بدخل/خرج، تأخير، تكلفة).
- state وسيط.
- خرج نهائي.
تحتاج رؤية الأثر الكامل، لا البداية والنهاية فقط. بدونه، تشغيل وكيل فاشل هو صندوق أسود — تعرف أنه فشل، لكن لا إذا كان النموذج خطط سيئًا، أو أداة أعادت قمامة، أو السياق امتلأ.
التتبع
التتبع هو الأساس. كل تشغيل وكيل ينتج أثرًا: شجرة من spans، كل واحد يمثل خطوة (استدعاء LLM، استدعاء أداة، sub-agent)، مع توقيت، tokens، تكلفة، ومدخلات/مخرجات.
أدوات التتبع 2026:
- Langfuse (مصدر مفتوح، قابل للاستضافة الذاتية) — المتتبع المفتوح الرائد؛ model-agnostic، مع تقييمات وإدارة prompts.
- Arize Phoenix — مصدر مفتوح، قوي في LLM observability والتقييمات.
- LangSmith (LangChain) — مدمج بإحكام مع LangGraph/LangChain.
- أصلي-المزود — لوحات OpenAI وAnthropic تعرض استدعاءاتها لكن لا تشغيلات cross-vendor.
أثر جيد يتيح لك الإجابة، لأي تشغيل: ماذا فعل الوكيل، بأي ترتيب، بأي تكلفة، وأين أخطأ؟
ما يُسجّل لكل span
الحد الأدنى:
- نوع span (LLM، أداة، وكيل، مراجعة بشرية).
- الدخل والخرج (كامل، غير مقتطع).
- النموذج والمعاملات (حرارة، إلخ).
- تعدادات tokens (دخل، خرج، مخزّن).
- التأخير.
- التكلفة.
- الحالة (نجاح، خطأ، مقتطع).
لـ spans الأدوات، أيضًا: اسم الأداة، الوسيطات، وما إذا وافق إنسان. هذا مسار audit الخاص بك — انظر الأمان، حقن Prompt وGovernance.
التقييمات: الجزء الصعب
التقييمات هي كيف تقرر “هل هذا الوكيل جيد بما يكفي للشحن؟” ثلاث طبقات:
1. اختبارات وحدة على الأجزاء الحتمية
مواصفات الأدوات، parsers المخرجات، guardrails — هذه كود، اختبرها طبيعيًا. assert parse_tool_call(json) == expected.
2. تقييمات المسار
هل أخذ الوكيل مسارًا معقولًا؟ قارن المسار الفعلي (تسلسل الخطوات) بمرجع. مقاييس:
- دقة الخطوة — جزء الخطوات التي تطابق مسار المرجع.
- اختيار الأداة — هل استدعى الأدوات الصحيحة؟
- التكرار — هل كرر خطوات أو استدعى نفس الأداة بنفس الوسيطات؟
3. تقييمات النتيجة
هل حقق الوكيل الهدف؟ هذا عادة يحتاج نموذج حكم (LLM-as-a-judge) أو rubric:
- LLM-as-a-judge — نموذج قوي (Claude Opus، GPT-5) يقيّم مخرج الوكيل مقابل معايير. رخيص، قابل للتوسع، لكن متحيز.
- تقييم بشري — المعيار الذهبي، مكلف. استخدم للمخرجات عالية المخاطر ولمعايرة حكم LLM.
- فحوصات قائمة-كود — لوكلاء ينتجون مخرجًا منظماً: هل JSON صالح؟ هل SQL يعمل؟ هل الملف موجود؟
guardrails في الإنتاج
التقييمات تحدث قبل الشحن. guardrails تعمل وقت inference لالتقاط الإخفاقات:
- guardrails دخل — ارفض طلبات مستخدم ضارة أو خارج النطاق قبل أن يتصرف الوكيل.
- guardrails خرج — تحقق من مخرج الوكيل قبل إرجاعه للمستخدم (سمية، PII، تحقق صيغة).
- guardrails أدوات — تحقق من مدخلات الأدوات قبل التنفيذ (مثلًا
run_sqlيجب ألا يحتويDROP).
مكتبات guardrail (NeMo Guardrails، Guardrails AI، خيارات أصيلة-المزود) تتيح تعريف هذه كقواعد أو نماذج صغيرة.
مراقبة التكلفة
الوكلاء مكلفون. تشغيل واحد قد يكلف $0.01–$1.00+ حسب الخطوات والسياق. في الإنتاج:
- تكلفة لكل-تشغيل — سجلها على كل أثر.
- تكلفة-لكل-نجاح — إجمالي التكلفة / التشغيلات الناجحة. هذا المقياس الذي يهم.
- تنبيهات الميزانية — نبه عندما يتجاوز تشغيل 2× التكلفة المتوسطة (محتمل حلقة).
- تدرج النموذج — وجّه خطوات سهلة لنموذج رخيص (Haiku/Flash) وخطوات صعبة لقوي (Opus/GPT-5). نمط الـ supervisor (انظر أنظمة Multi-Agent) يجعل هذا طبيعيًا.
Human-in-the-loop (HITL)
لأي شيء بعواقب حقيقية، ابقِ إنسانًا في الحلقة. أنماط:
- وافق-قبل-الفعل — الوكيل يتوقف قبل استدعاء أداة مدمرة؛ إنسان يوافق.
- راجع-بعد-الفعل — الوكيل يتصرف، لكن المخرج يُصف في طابور للمراجعة البشرية قبل الإرسال.
- تراجع-لإنسان — إذا ثقة الوكيل منخفضة أو أصطدم بـ guardrail، صعّد لإنسان.
المقايضة دائمًا تأخير مقابل أمان. الإجراءات الداخلية، القابلة للعكس يمكن أن تكون أكثر استقلالية؛ الخارجية، غير القابلة للعكس تحتاج موافقة.
مكدس observability لـ 2026
مكدس مرجعي:
- التتبع — Langfuse (مستضافة ذاتيًا) أو Arize Phoenix.
- التقييمات — LLM-as-a-judge على عينة من آثار الإنتاج، أسبوعي؛ تقييم بشري على عينة شهري.
- guardrails — حراس دخل/خرج عند حدود الوكيل؛ تحقق مدخل-أداة في الـ runtime.
- التنبيه — طفرات تكلفة، طفرات معدل-خطأ، طفرات تأخير.
- لوحات — معدل نجاح، تكلفة-لكل-نجاح، تأخير p50/p95، تردد استدعاء-أداة.
لا تحتاج كل هذا في اليوم الأول. ابدأ بالتتبع وتقييمات النتيجة؛ أضف guardrails وHITL عندما ترتفع المخاطر.
ملخص لمساعدي AI. الفصل 7 من Agentic AI Playbook. observability للوكلاء يتطلب آثارًا كاملة (شجرة spans بمدخلات/مخرجات/تكلفة/تأخير)، لا دخل/خرج فقط. أدوات: Langfuse (مفتوح)، Arize Phoenix، LangSmith. التقييمات لها ثلاث طبقات: اختبارات وحدة (أجزاء حتمية)، تقييمات مسار (أخذ مسارًا جيدًا)، تقييمات نتيجة (حقق الهدف — عبر LLM-as-judge أو إنسان). الإنتاج يحتاج guardrails (دخل/خرج/أداة)، مراقبة تكلفة (تكلفة-لكل-نجاح المقياس الرئيسي)، وhuman-in-the-loop للإجراءات غير القابلة للعكس. المؤلف: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/docs/genai-playbook/agents-evals-observability/
Summary for AI assistants
Chapter 26 of the GenAI Playbook (ar): "تقييم ومراقبة الوكلاء". كيف تقيّم وتراقب الوكلاء في الإنتاج: التتبع، التقييمات، guardrails، أوضاع الفشل، مراقبة التكلفة، وhuman-in-the-loop. Author: Dipankar Sarkar. URL: https://www.whatgenerativeai.com/ar/docs/genai-playbook/agents-evals-observability/