ExplAInable

אורי גורן ותמיר נווה מדברים על Machine Learning ואתגרים בתעשייה עם מומחים מהתחום.

Listen on:

  • Apple Podcasts
  • Podbean App
  • Spotify
  • Amazon Music

Episodes

4 days ago

ערכים חסרים הם נחלתו של כל מי שעוסק בעיבוד מידע טבלאי, הפעם נתמקד בהשלמת ערכים רציפים עם Predictive mean matching.
אחת השיטות הנפוצות MICE, לא היתה זמינה עד לאחרונה למשתמש פייתון - וכעת נמצאת במודול הexperimental של scikit learn.נעשה סקירה קצרה על מתי כדאי להשלים ערכים חסרים ומתי לא, ונדבר על השיטות הנפוצות להשלמה.

Sunday Jun 09, 2024

הרבה מאיתנו שמעו בכותרות על KAN פה, KAN שם - ולא היה ברור מה המהומה.Kolmogorov Arnold networkזו ארכיטקטורה שמאיימת לשנות את איך שאנחנו חושבים על רשתות נוירונים, החל במבנה של נוירון ועד יכולת ההסבר.
בנוסף, לרשתות כאן יש פי עשר פחות פרמטרים והן דלילות יותר - נשמע מדהים.
אבל, הפוטנציאל הוא גדול אבל המציאות היא בפרטים הקטנים - אותם נכסה בפרק הזה

רק לא ראג RAG

Monday Jun 03, 2024

Monday Jun 03, 2024

מי לא שמע על RAG, נראה שכולם מדברים, מממשים ומאפטמים ראגים לכל שימוש.
בפרק זה אורי שוטח את משנתו על ראגים, וטוען שהם בשימוש יתר בתעשייה (יש יגידו הייפ), ואלו הן הסיבות
1. אתם אחראיים (משפטית) על הפלט שלהם - אם אין בן אדם בלופ - יש בעיה
2. שאילתות סמנטיות לא מתאימות להמון מקרים, חיפוש וקטורי הוא לא התשובה לretrieval
3. זה נראה כאילו חיפוש וקטורי נועד לחסוך עלויות, אבל האם באמת LLM עדיין כ״כ יקרים שצריך אותו?
4. האם זו בעיית איחזור או בעית שאלה-תשובה? בהרבה מהמקרים פשוט לא צריך LLM בקצה
5. הסיבה ההנדסית - בראג יש שני מודלים שונים, שלא בטוח מדברים זה עם זה, צריך לוודא שיש תרומה הדדית

Monday May 27, 2024

מירב גרימברג עוסקת למחייתה בפיתוח מנוע החיפוש הוקטורי של רדיס, הגיעה לספר לנו תובנות מבפנים.
לאחרונה רואים שיותר ויותר דאטאבייסים ״מסורתיים״ מוסיפים פונקציונאליות של חיפוש וקטורי, רדיס הוא אחד מהם.רדיס, הוא היום שירות ברירת המחדל לחיפוש key-value מהיר בזמן אמת. וגם מנוע חיפוש וקטורי המממש את אלגוריתם הhnsw לחיפוש וקטורי מקורב.מירב תספר לנו על האילוצים מעולם התוכנה כדי לגרום למנוע חיפוש וקטורי לעבוד ממש מהר, יחד עם יכולות פילטור ועדכון.על הטריידוף בין זכרון, מחיר ומהירות - וכמובן על שימושים בretrieval augmented generation יחד עם מודלי שפה.

Tuesday May 21, 2024

עכשיו כשהעולם רועש סביב מודלי שפה גדולים וחזקים שאינם טרנספורמרים (מאמבה, rwkv) - הגיע הזמן להיזכר מה הוא הטרנספורמר ומה היו המוטיבציות ליצירתו.פרק זה הינו שידור חוזר של פרק מ2020, האזנה מרתקת לאזניים של 2024.

Monday May 13, 2024

בוריס גורליק, יועץ דאטא מנוסה עם רקע ניכר בדאטא טבלאי, ויזואליזציה וסדרות זמן - ידבר איתנו על דווקא על נושא אחר: Soft skills.
מדעני נתונים, הם לא רק אנשים טכניים שיודעים להריץ פייתון ולאפטם מודלים - הכוונה ב״כישורים רכים״ זה לכל יכולת התקשורת בארגון ובצוות, ובעבודה במשותף כחלק מאתגר גדול יותר.נדבר על אתגרים נפוצים בחיי הDS ועל איך נכון לבנות מצגת בצורה לא תשעמם את המאזינים.
בוריס הוא גם המנחה של הפודקאסט הפופולארי ״השבוע במזרח התיכון״, שם תוכלו להיווכח איך בוריס מיישם את התאוריה בפועל.
קישור לספר שבוריס הזכיר

Monday May 06, 2024

בפרק זה אירחנו את מיכאל ארליכסון לדבר על self supervised learning.דיברנו על בעיית דלילות הסיגנל, ועלות התיוג.למידה self supervised מתמקדת בלמידת היצוג הוקטורי על ידי משימות שלא דורשות תיוג.לדוגמא, אם לקחנו תמונה ו הרעשנו אותה (או סיבוב, שיקוף, זום) נצפה שוקטור היצוג יהיה דומה.דיברנו על טכניקות שונות ללמידת יצוגים, כגון רשתות סיאמיות, למידה ניגודית ואוגמנטציות.וכמובן, האתגר הגדול ביותר של התחום - מציאת דוגמאות שליליות חזקות.

Saturday Apr 27, 2024

יש הרבה עיסוק בסכנות הכרוכות בהדלפה של פרטים מזהים בדאטאסטים או בתוך משקולות של מודלים מאומנים.בפרק זה משה שנפלד, חוקר בתחום, יספר לנו כמה זה מורכב להפוך דאטאסט אנונימי ונדבר על כמה פדיחות שקרו בתחום.נדבר על האתגרים של אימון מודלים בצורה פרטית, והאם מדובר בסוג חדש של רגולרזיציה.נכסה אלגוריתמים כמו k-annonimity ונדבר על Differential privacy שהיא הסטנדרט היום בתחום.הרעיון המרכזי בפרטיות דיפרנציאלית הוא הכנסת רעש מבוקר, כזה שיפריע לזהות אינדיבידואלית אבל לא יפריע למודל להתאמן.נדבר על שיטות כמו DP-SGD שמכניסים את הרעיון הזה לתוך צעדי הגרדיאנט באימון רשתות.קישורים:
The netflix prize
Very recent example from the pentagon
How one man’s pay-to-use toilet gag revealed Google Maps can be used to track people
Sweeney’s attack
 

Sunday Apr 21, 2024

בפרק זה חן מרגלית סיפר על פיתוחSEC by LSports
הבוט שמתמצת ועונה על שאלות על משחקי ספורט. הבעיה העיקרית היא שרוב מודלי השפה אומנו על ויקיפדיה, כתבות ואתרי שאלות ותשובות - ולא שפה השגורה במגרשי הכדורגל.חן יספר על התהליך של יצירת הדאטא, פיינטון וכמובן שרשרת המודלים ליצירת התחזיות שקדמה למענה של הצ׳טבוט.

Saturday Apr 13, 2024

בפרק זה אמיר שחר יספר על שיטה חדשנית שפרסם לשילוב מודלי שפה יחד עם אלגוריתמים.
לפני 20 שנים, כנראה שאם הייתם אומרים AI הייתם מתכוונים לאלגוריתמי חיפוש בעצים.
אלגוריתמי חיפוש כמו
A Star
מנצחים מסטרים בשח מט, ואפילו עוזרים לנו להתמצא בעיר עם Waze.
למעשה, אם מסתכלים עמוק בתוך LLM מגלים גם בו שימושים באלגוריתמי חיפוש.
אמיר יספר מנסיונו איך אפשר לשפר אלגוריתמים, ובפרט אלגוריתמי חיפוש, על ידי שילובם עם מודלי שפה גדולים.

Image

מי אנחנו

תמיר נווה, מומחה עיבוד תמונה ולמידה חיזוקית עם נסיון רב בתעשיות הבטחוניות ובהדרכה.
תמיר מוביל את ai-blog ואת המיזם ai-junk שמלמד ילדים על אינטלגנציה מלאכותית עם אביזרים שאפשר למצוא בכל בית.

אורי גורן הוא מומחה במערכת המלצה ועיבוד טקסט, עם נסיון עשיר בסטארטפים ובאקדמיה.
אורי מוביל את argmaxml, חברת יעוץ בתחום ומארגן את קהילת pydata Tel-Aviv.

פודקאסט זה הוא מיתוג מחדש (יש שיגידו עונה שניה) של amlek.ai .

לפרטים נוספים על תמיר ואורי, האזינו לפרק 0 עלינו

Copyright 2021 All rights reserved.

Podcast Powered By Podbean

Version: 20240320