Episodes

Thursday Mar 13, 2025
מדידת GenAI עם אסף בורד
Thursday Mar 13, 2025
Thursday Mar 13, 2025
להכניס מודלי שפה כמו ChatGPT למערכת, זה יחסית קל ונגיש, עם אלפי דוגמאות ותמחור תחרותי אצל הספקים השונים.
אבל למדוד את הביצועים של מודל כזה או אחר נשארת בעיה פתוחה, במיוחד אם משלבים גם מדדים עסקיים.
בפרק זה נארח את אסף בורד, שמוביל את מאמצי ה GenAI בחברת Northwestern Mutual והשיק לאחרונה את Multinear.com כקוד פתוח לאבלאוציה.
נדבר על חמשת הרכיבים שיש לבדוק כשמנסים להעריך מערכת AI בשלמותה: דאטא, פונקציית המטרה, הפרומפט, הסטאק הטכנולוגי ובדיקות.
ונעמיק בהשוואה מול ספריות אחרות וטכניקות מדידה כגון GPT as a judge
Version: 20241125
Comments (0)
To leave or reply to comments, please download free Podbean or
No Comments
To leave or reply to comments,
please download free Podbean App.