ExplAInable

אורי גורן ותמיר נווה מדברים על Machine Learning ואתגרים בתעשייה עם מומחים מהתחום.

Listen on:

  • Apple Podcasts
  • Podbean App
  • Spotify
  • Amazon Music

Episodes

20 hours ago

פרק פיצוץ על איך סימולציות יכולות לעזור לנו לחזות תגובה של חומרי נפץ במתחים שונים.
בפרק זה רותם תספר לנו על המחקר האקדמי שלה בשיתוף עם רפאל, ועל איך סימולציות עזרו לחסוך המון כסף וזמן על ניסוי שטח.
נדבר על ההבדלים בין סימולציות סדרתיות, ובין סימולציות אגרגטיביות.
ומדוע סימולציות הם הכלי הנכון לבדוק את המודל שלנו בכל מיני מקרי קצה נדירים, או שטרם קרו.
 
קישור ללינקדין של רותם

Saturday Jul 06, 2024

סימולציות היו פעם כלי הניבוי המרכזי, והיום הוחלפו על ידי מודלי למידת מכונה.
האם מדובר בכלי מיושן ולא רלוונטי, או באומנות עתיקה שנשכחה.
בפרק זה נדבר על המוטיבציות לסימולציות אל מול הרצת ניסויים על דאטא אמיתי, ונדבר על החוזקות והחולשות מול מודלי למידת מכונה.
 
קורס חינמי של אוניברסיטת חיפה על סימולציות

Saturday Jun 29, 2024

מערכות המלצה נתפסות לרוב כבעיית רגרסיה או קלאסיפיקציה, בפרק זה פרופסור עומר בן פורת מהטכניון ואורי ינהלו דיון טכני על האתגרים במידול סטטי כזה.
נדבר על יצירת העדפות, ועל האחריות המשפטית של מערכת ההמלצה.
מערכת המלצה אמורה למדל אנשים, ואנשים הם לא יצור רציונאלי או עקבי - כיצד מערכת ההמלצה אמורה להתמודד עם זה?ונדבר על החשיבות של סימולציה למדידה ואימון מערכות המלצה, גם כאשר יש הרבה דאטא.
 
קישורים:
Duelling bandits
Recsim
טווח ארוך לעומת טווח קצר במערכות המלצה

Sunday Jun 23, 2024

למודלי שפה (גדולים) יש שלושה תת-מודלים: הטוקנייזר, הטרנספורמר, ואלגוריתם הפענוח.אלגוריתם הפיענוח בדרך כלל אינו נלמד, אלא הוא איזה שהיא יוריסטיקה סדרתית של חיפוש בעץ על סמך ההסתברויות של הטרנספורמר.
אבל מי מבטיח שהיוריסטיקה הזו היא הדבר האידיאלי לעשות בהנתן הפלט של הטרנספורמר.
Consistency LLMs מנסים לקשור את שתי הקצוות, ולהתאים את ההטרנספורמר לאלגוריתם הפענוח.
מרוויחים מזה מודלים יעילות יותר, ואפשרות למיקבול.
מייק יספר לנו איך הקסם הזה קורה

Friday Jun 14, 2024

ערכים חסרים הם נחלתו של כל מי שעוסק בעיבוד מידע טבלאי, הפעם נתמקד בהשלמת ערכים רציפים עם Predictive mean matching.
אחת השיטות הנפוצות MICE, לא היתה זמינה עד לאחרונה למשתמש פייתון - וכעת נמצאת במודול הexperimental של scikit learn.נעשה סקירה קצרה על מתי כדאי להשלים ערכים חסרים ומתי לא, ונדבר על השיטות הנפוצות להשלמה.

Sunday Jun 09, 2024

הרבה מאיתנו שמעו בכותרות על KAN פה, KAN שם - ולא היה ברור מה המהומה.Kolmogorov Arnold networkזו ארכיטקטורה שמאיימת לשנות את איך שאנחנו חושבים על רשתות נוירונים, החל במבנה של נוירון ועד יכולת ההסבר.
בנוסף, לרשתות כאן יש פי עשר פחות פרמטרים והן דלילות יותר - נשמע מדהים.
אבל, הפוטנציאל הוא גדול אבל המציאות היא בפרטים הקטנים - אותם נכסה בפרק הזה

רק לא ראג RAG

Monday Jun 03, 2024

Monday Jun 03, 2024

מי לא שמע על RAG, נראה שכולם מדברים, מממשים ומאפטמים ראגים לכל שימוש.
בפרק זה אורי שוטח את משנתו על ראגים, וטוען שהם בשימוש יתר בתעשייה (יש יגידו הייפ), ואלו הן הסיבות
1. אתם אחראיים (משפטית) על הפלט שלהם - אם אין בן אדם בלופ - יש בעיה
2. שאילתות סמנטיות לא מתאימות להמון מקרים, חיפוש וקטורי הוא לא התשובה לretrieval
3. זה נראה כאילו חיפוש וקטורי נועד לחסוך עלויות, אבל האם באמת LLM עדיין כ״כ יקרים שצריך אותו?
4. האם זו בעיית איחזור או בעית שאלה-תשובה? בהרבה מהמקרים פשוט לא צריך LLM בקצה
5. הסיבה ההנדסית - בראג יש שני מודלים שונים, שלא בטוח מדברים זה עם זה, צריך לוודא שיש תרומה הדדית

Monday May 27, 2024

מירב גרימברג עוסקת למחייתה בפיתוח מנוע החיפוש הוקטורי של רדיס, הגיעה לספר לנו תובנות מבפנים.
לאחרונה רואים שיותר ויותר דאטאבייסים ״מסורתיים״ מוסיפים פונקציונאליות של חיפוש וקטורי, רדיס הוא אחד מהם.רדיס, הוא היום שירות ברירת המחדל לחיפוש key-value מהיר בזמן אמת. וגם מנוע חיפוש וקטורי המממש את אלגוריתם הhnsw לחיפוש וקטורי מקורב.מירב תספר לנו על האילוצים מעולם התוכנה כדי לגרום למנוע חיפוש וקטורי לעבוד ממש מהר, יחד עם יכולות פילטור ועדכון.על הטריידוף בין זכרון, מחיר ומהירות - וכמובן על שימושים בretrieval augmented generation יחד עם מודלי שפה.

Tuesday May 21, 2024

עכשיו כשהעולם רועש סביב מודלי שפה גדולים וחזקים שאינם טרנספורמרים (מאמבה, rwkv) - הגיע הזמן להיזכר מה הוא הטרנספורמר ומה היו המוטיבציות ליצירתו.פרק זה הינו שידור חוזר של פרק מ2020, האזנה מרתקת לאזניים של 2024.

Monday May 13, 2024

בוריס גורליק, יועץ דאטא מנוסה עם רקע ניכר בדאטא טבלאי, ויזואליזציה וסדרות זמן - ידבר איתנו על דווקא על נושא אחר: Soft skills.
מדעני נתונים, הם לא רק אנשים טכניים שיודעים להריץ פייתון ולאפטם מודלים - הכוונה ב״כישורים רכים״ זה לכל יכולת התקשורת בארגון ובצוות, ובעבודה במשותף כחלק מאתגר גדול יותר.נדבר על אתגרים נפוצים בחיי הDS ועל איך נכון לבנות מצגת בצורה לא תשעמם את המאזינים.
בוריס הוא גם המנחה של הפודקאסט הפופולארי ״השבוע במזרח התיכון״, שם תוכלו להיווכח איך בוריס מיישם את התאוריה בפועל.
קישור לספר שבוריס הזכיר

Monday May 06, 2024

בפרק זה אירחנו את מיכאל ארליכסון לדבר על self supervised learning.דיברנו על בעיית דלילות הסיגנל, ועלות התיוג.למידה self supervised מתמקדת בלמידת היצוג הוקטורי על ידי משימות שלא דורשות תיוג.לדוגמא, אם לקחנו תמונה ו הרעשנו אותה (או סיבוב, שיקוף, זום) נצפה שוקטור היצוג יהיה דומה.דיברנו על טכניקות שונות ללמידת יצוגים, כגון רשתות סיאמיות, למידה ניגודית ואוגמנטציות.וכמובן, האתגר הגדול ביותר של התחום - מציאת דוגמאות שליליות חזקות.

Saturday Apr 27, 2024

יש הרבה עיסוק בסכנות הכרוכות בהדלפה של פרטים מזהים בדאטאסטים או בתוך משקולות של מודלים מאומנים.בפרק זה משה שנפלד, חוקר בתחום, יספר לנו כמה זה מורכב להפוך דאטאסט אנונימי ונדבר על כמה פדיחות שקרו בתחום.נדבר על האתגרים של אימון מודלים בצורה פרטית, והאם מדובר בסוג חדש של רגולרזיציה.נכסה אלגוריתמים כמו k-annonimity ונדבר על Differential privacy שהיא הסטנדרט היום בתחום.הרעיון המרכזי בפרטיות דיפרנציאלית הוא הכנסת רעש מבוקר, כזה שיפריע לזהות אינדיבידואלית אבל לא יפריע למודל להתאמן.נדבר על שיטות כמו DP-SGD שמכניסים את הרעיון הזה לתוך צעדי הגרדיאנט באימון רשתות.קישורים:
The netflix prize
Very recent example from the pentagon
How one man’s pay-to-use toilet gag revealed Google Maps can be used to track people
Sweeney’s attack
 

Sunday Apr 21, 2024

בפרק זה חן מרגלית סיפר על פיתוחSEC by LSports
הבוט שמתמצת ועונה על שאלות על משחקי ספורט. הבעיה העיקרית היא שרוב מודלי השפה אומנו על ויקיפדיה, כתבות ואתרי שאלות ותשובות - ולא שפה השגורה במגרשי הכדורגל.חן יספר על התהליך של יצירת הדאטא, פיינטון וכמובן שרשרת המודלים ליצירת התחזיות שקדמה למענה של הצ׳טבוט.

Saturday Apr 13, 2024

בפרק זה אמיר שחר יספר על שיטה חדשנית שפרסם לשילוב מודלי שפה יחד עם אלגוריתמים.
לפני 20 שנים, כנראה שאם הייתם אומרים AI הייתם מתכוונים לאלגוריתמי חיפוש בעצים.
אלגוריתמי חיפוש כמו
A Star
מנצחים מסטרים בשח מט, ואפילו עוזרים לנו להתמצא בעיר עם Waze.
למעשה, אם מסתכלים עמוק בתוך LLM מגלים גם בו שימושים באלגוריתמי חיפוש.
אמיר יספר מנסיונו איך אפשר לשפר אלגוריתמים, ובפרט אלגוריתמי חיפוש, על ידי שילובם עם מודלי שפה גדולים.

Sunday Apr 07, 2024

נהוג להסתכל על מערכת המלצה כאל בעיית אופטימיזציה, איזה סרטון לנגן כך שיהיו הכי הרבה צפיות בהתחשב בהיסטוריית הלקוח.
אבל אם לוקחים צעד אחורה, מגלים שאנחנו בשוק מסחר תלת צדדי. לסרטונים יש יוצרים, ולפלטפורמה יש בעלי מניות, וכמובן - אנחנו הצופים.כמובן שאם הפלטפורמה לא תהיה רווחית, תהיה בעיה בטווח המיידי - אבל גם אם יוצרי התוכן לא יזכו לחשיפה הם ינטשו את הפלטפורמה ותהיה בעיה בטווח הרחוק.
 
דרך אחרת להסתכל על מערכת המלצה, היא בעיניים של תורת המשחקים.
בפרק עומר סיפר על סוגים של שיווי משקל, ועל תמריצי השחקנים.
ודיברנו על הסוגיה של יצירת העדפות, ויציבות המערכת כשיש הרבה נישות
 

Monday Mar 18, 2024

רשתות נוירונים על שלל סוגיהן זוכות להרבה אטנשן - אבל בפועל, הרבה פרויקטים לא זקוקים לרשתות נוירונים.
מודליים עציים הם בדרך כלל הפתרון הפשוט והיעיל לדאטא טבלאי.
בפרק קצרצר זה, נסקור את עצי החלטה, תהליך אימונם ובעיית הOverfit.
נדבר על שתי ההרחבות הנפוצות:
Random Forest & Gradient Boosted Treesוהיתרונות שיש בשימוש במודלים ותיקים בסביבת פרודקשן

Tuesday Mar 12, 2024

נדירים המקרים בהם שני תחומים כ״כ רחוקים במדעי המחשב נפגשים, ועוד זוכים להגיע לפרודקשן.אימות פורמלי הוא תחום העוסק בוידוא מתמטי שתוכנית אמורה לרוץ בלי תקלות, והוכחה שהתוכנית מקיימת תכונות מסוימות.בדרך כלל רואים אימות פורמלי בתחומים כמו קומפילציה או לוגיקה, ולכן היה מרתק לשמוע איך שיטות תאורטיות כאלו מצאו את עצמן בישום אצל חברת אלביט המפתחת רשתות נוירונים.בפרק זה איתי (מאלישרא) וגיא (אוניברסיטה העברית) יספרו על שיתוף הפעולה, והישום בשטח.

Thursday Feb 29, 2024

עולם מודלי השפה מושתת על ארכיטקטורת הטרנספורמר שמכילה בעיה מובנית בתוכה - סיבוכיות ריבועית בקלט, ולאחרונה אלטרנטיבות מעניינות לטרנספורמר הגיחו לחיינו.פרק זה הינו פרק שני בסדרה, והוא סיכום מנהלים על עקרון הדואליות, מוטיבציה ותחזיות להמשך.מייק ואני נדבר על איך דואליות משפיעה על אימון יעיל והוזלה של עלויות, על ארכיטקטורות חומרה והתאמתן לטרנספורמרים.

Thursday Feb 29, 2024

יש הרבה התרחשויות סביב ארכיטקטורות חדשות (שאינן טרנספורמר) שיכולות להיות המנוע מאחורי הLLM הבא.פרק זה הינו פרק ראשון מתוך שניים, על Mamba ו State Space Models שנראים אלטרנטיבה מבטיחה.נצלול טכנית למוטיבציה ולאלגוריתמים המתמטיים, ואיך פולינומי לג׳נדר קשורים לעניין.הפרק טיפה טכני מהרגיל, בפרק הבא נעלה רמה ונסקור את ההשלכות ותחזיות לדעתנו.

Saturday Feb 10, 2024

פרק משותף עם דין פלבן מThe MLOps Podcast
על הנושא שמעסיק את עולם הפרסום היום.ברוח חקיקה אירופאית ואמריקאית, נהיה קשה יותר ויותר מבחינה חוקית לעקוב אחרי התנהגות משתמשים עם קוקיז (עוגיות).
לשמירה על הפרטיות יש גם צד שנוגע לנו, אנשי הדאטא בכל הקשור למדידת איכות אלגוריתמים ולמידה.בפרק זה דין ייארח את אורי ונדון על מה אפשר לעשות.

Sunday Jan 14, 2024

מודלים מולטי-מודאלים הגיעו לקידמת הבמה לאחרונה עם מודלים כמו chatGPT, Whisper, Midjourney.
נדבר על האתגרים בשילוש מודלים חזותיים, טקסטואלים וגרפיים - כאשר המימדים שונים, המימדים שונים, ואיך מרוויחים מהשילוב הזה.
נדבר על cross modal learning - איך אפשר ללמד מודל אחד על סמך מודאליות של מודל אחר.
 

Friday Dec 29, 2023

ניהול אנשים זה אתגר, ניהול מחקר עם תוצר לא-וודאי - זה אתגר, וניהול ממשקים עם פרודקט,תוכנה והנהלה בכירה זה בכלל מורכב.בפרק זה אירחנו את חן קרני, מנהלת מנוסה בתחום הדאטא לדבר על איך עושים את זה נכון, וללמד מה עבד עבורה.
איך לפרק פרויקטים גדולים למשימות קטנות (בשיטת הסלאמי) שאפשר לתקשר, איך למדוד ולהגדיר יעדים (שגם אפשר לעמוד בהם), ומה הם השלבים בפרויקט חדש.

Tuesday Dec 19, 2023

 
טרנספורמרים הם ללא ספק המודל המועדף בעיבוד שפה - אבל האם גם בתמונות?
אז... מסתבר שהתמונה לא כל כך ברורה בעיבוד תמונה.
בפרק זה נדבר על היתרונות הגדולים של טרנספורמרים בתמונות - ועל הסיטואציות שבהן CNN מנצחות אותם.
 
קישורים
Attention is All You Need
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
End-to-End Object Detection with Transformers
Vision-Transformer-papers
https://medium.com/@monocosmo77/best-research-papers-on-vision-transformers-784e48a3593a
https://paperswithcode.com/methods/category/vision-transformer

Sunday Dec 03, 2023

לפני כשש שנים עומר חיון ואורי גורן התחילו הרפתקאה בעולם הLegal tech והקימו את BestPractixבסט פרקטיקס התמקדה בשלב הטיוטות של החוזים, והיוותה כלי עזר לעורכי דין לזהות ״אנומליות״ בחוזים (שבדרך כלל די סטנדרטים), והצעה של אלטרנטיבות מקובלות יותר.
בשנת 2020 בסט פרקטיקס נמכרה לLitera Systems האמריקאית, ועומר הועבר להמשך הפיתוח.
 
הרבה השתנה בעולם הAI מאז, ולרשותנו היום כלים חזקים כמו ChatGPT שמקצרים את תהליך העבודה המשפטית.
פרק זה הינו שיחה פתוחה בין אורי לעומר על האתגרים בעולם המשפט, והעתיד לאור היכולות החדשות בעולם הNLP.

Thursday Nov 23, 2023


דיברנו הפעם על פרויקט ai-junk המאפשר לכל אחד ליצור רובוטים מגרוטאות וליצור ולאמן מודלי reinforcement learning שישלטו ברובוטים. ובכך ליצור עולם משחק מרובה רובוטים על הריצפה בסלון.
דיברנו על מה זה RL, על הקשיים להפוך RL שעובד טוב בוירטואלי לעולם הפיסי, על כמה נחמד ללמוד על התחום דרך רובוטים :)
הפרק הוקלט לפני המלחמה ששיבשה לנו הכל וארועים שתוכננו בוטלו. אם מעניין אתכם להצטרף לסדנה או האקטון הרשמו כאן ונעדכן אתכם.
קישורים
Ai-junk
כתבה למטיבי לכת בעברית על RL
DeepMind is Using AI to Teach Robots to Play Soccer

Sunday Nov 05, 2023

נתנאל, דאטא סיינטינסט ותיק שמוביל היום את המחקר בדאבל וריפיי ידבר איתנו על בעיה כואבת אך נפוצה.
גייסנו תקציבים, כוח אדם, ועם הרבה רצון ומוטיבציה ניגשנו לפרויקט חדש - פתחנו את מכסה המנוע, וגילינו לצערינו שאין מספיק נתונים- מה הלאה ?
נדבר על שלוש טקטיקות שאפשר לנקוט, בין אם זה תיוג עצמאי ורכישת דאטא, שימוש במודלים כגון
Label spreading, transfer learning, kde
או שימוש במודלים אנליטיים יותר, כגון שיטות בייסיאניות או מודלים פיסיקלים.
 

Tuesday Oct 24, 2023

יצא לנו הרבה לדבר על מודלי שפה גדולים לאחרונה, ועל השימושים שלהם.
למעט שימוש בצ׳אטבוט או כעזר לכתיבה, לרוב אנחנו רוצים לקבל את הפלט של המודל בפורמט כלשהו כמו
Json / Data Class
נדבר על שלושת השלבים ביצירת הפלט, הטוקנייזר, הטרנספורמר, והמפענח.
ונסביר איך אפשר להתערב במפענח כדי לאלץ את המודל כדי לקבל תשובות במבנה מסוים, להכריח את מודל לענות ״כן״ או ״לא״, לאלץ את התשובה להיות מספרית, מתוך רשימה סגורה וכדומה.ספריות שימושיות:
JSONFormer - https://github.com/1rgs/jsonformer
OpenAI Function calls - https://openai.com/blog/function-calling-and-other-api-updates
 
O

Monday Oct 02, 2023

בפרק זה אירחנו את איתי ציטבר רש"צ מהיירו - לדבר על מודלי שפה בפרודקשן.המודלי צ'אט כ"כ חזקים - האם בכלל נשאר מה לעשות חוץ מאשר לחבר את הAPI לאתר ?
מצד שני, זה נראה כאילו כולם משתמשים בLLM, גם כאשר קיימים מודלים פשוטים יותר.
נדבר על מה קורה כשהמלצת המודל מתנגשת עם נהלים רפואיים, מה קורה שהמודל נותן הנחיות שגויות למטופל, ואין אפשר לצמצם את התופעה עם Retrieval augmented generation.

Sunday Sep 17, 2023

בפרק זה אירחנו את דניאל מנוחין, מנהלת קהילת data-ops המובילה את התיוג וטקסונומיה ב ebay
בסופו של דבר, מודלים טובים ככל שיהיו - חסומים על ידי איכות הדאטא עליהם הם אומנו.
דניאל תספר על החוויות שלה בebay, על נקודות כשל קלאסיות בתהליך התיוג ועל איך בונים פרוטוקול אנוטציה אחיד.
נדון בהבדל בין מתייגים in-house שהם ממש חלק מהארגון, לעומת מתייגים חיצוניים (כדוגמת mechnical turk) ועל ההשפעה על איכות התיוגים ותהליכי הפיקוח.
 
Data Operations IL
https://www.linkedin.com/groups/9236026/

Tuesday Aug 29, 2023

זה מרגיש כאילו עולם הלמידה מחולק ל2 מחנות, הסטטיסטיקאים ואנשי מדעי המחשב.
ולאחרונה יצא מודל AGLM שהוא רעידת אדמה בעולם האקטואריה (ביטוח, פיננסים), וכנראה שרובנו לא שמענו עליו.
בפרק זה נסקור מה אלו מודלי GLM, ספוילר - אחד מהם - הרגרסיה הלוגיסטית, אתם מכירים היטב.
נדבר על השימושים שלהם, היתרונות שלהם בתחום הפיננסים בעקבות יכולת ההסבר שלהם, ונדבר גם על המגבלות שלהם.
נסקור בקצרה את החידושים בAGLM שמשתמש במודלים מבוססי עצים על מנת להביא חזרה לLogistic Regression את הנקודות שהוא חלש בהם ומביא אותו לרמה של XGBoost.Links:
https://www.institutdesactuaires.com/global/gene/link.php?doc_id=16273#:~:text=AGLM1%20is%20defined%20as,coding%20methodologies%20of%20dummy%20variables.
https://github.com/kkondo1981/aglm
GAM - Generalized additive models
https://medium.com/just-another-data-scientist/building-interpretable-models-with-generalized-additive-models-in-python-c4404eaf5515

Monday Aug 14, 2023

מי לא מכיר את שוקי ויואל - הגאונים מאחורי ערוץ היוטיוב האדיר שמביא את תרבות הלייב קודינג בעולמות למידת המכונה לארץ הקודש.
וואן שוט לרנינג התחיל לפני כשנתיים כרעיון, ומאז הפך לקאלט של ממש.
אבל מאחורי כל סרטון של חצי שעה, מסתתרת עבודה רבה, מחקר, באגים, והמון נסיונות שהלכו לפח.
בפרק זה אורי ראיין את שוקי ויואל על מאחורי הקלעים של ההפקה, ושואל שאלות קשות. איך הכל התחיל ולמה? איזה פרק הכי אהבתם? איזה פדיחה קרתה בצילומים? ומה התוכניות להמשך ?
 
קישורים:1. One Shot Learning

Wednesday Aug 02, 2023


בפרק זה אירחנו את מורן קורן, חוקר ומרצה לתורת המשחקים מאוניברסיטת בן גוריון.דיברנו בעבר שימוש בערכי שייפלי לפרשנות מודלים, ערכי שייפלי הם נושא מחקר פעיל בתורת המשחקים והחלטנו להעמיק ולשפוך אור על תורת המשחקים ואיך הרעיונות משלימים את הנחקר בלמידת מכונה.
דיברנו על המונחים, מהו שיווי משקל ? איך מגדירים משחקים לפי ידיעה שלמה או גורל, על אסטרטגיה אופטימלית, ואיפה תורת המשחקים פוגשת אותנו כאנשי דאטא.
איך אפשר להשתמש בתורת המשחקים לצורך איסוף דאטא של מודלים כדי למנוע הטייה באיסוף הנתונים.
ונדבר על רעיונות מתורת המשחקים שהשפיעו על תחום המכרזים שמעסיק דאטא סיינטיסטים רבים.
קישורים:
שייפלי: https://christophm.github.io/interpretable-ml-book/shapley.html
https://research.ibm.com/publications/strategic-classification
On learning optimal contracts: https://www.cs.cornell.edu/home/kleinber/aer18-fairness.pdf

Friday Jul 07, 2023

אמיר ואורי נסעו במסגרת עבודתם בארגמקס לכנס הייסטאקHayStack2023
המתמקד בחיפוש, ואימלקו לכם את הפרק לעשרים דקות צפופות על החידושים בתחום החיפוש בעידן ה
Language models
דיברנו על ארכיטקטורות חיפוש ובנוסף כוסו האלגוריתמים הבאים
Splade
Hyde
Search augmentation with LLM

Sunday Jun 25, 2023

בפרק זה אירחנו את רותם דמבו ועומר דודי, שסיפרו לנו על המעבר שעשו בשנה האחרונה, מתפקיד של אנליסט לתפקיד של מדען נתונים.דיברנו על הפערים "התרבותיים" בין המקצועות, אילו יתרונות יש לאנליסט שמחפש להכנס לתחום מדעי הנתונים, אילו השלמות כדאי לעשות ואיזה טיפים יש להם לתת למי שנכנס לתחום.הם יספרו על ההחלטה לעשות את המעבר, על הלימודים בתוכנית Y-DATA, על איך התוכנית סייעה להם במעבר ועל מה הם עושים כיום.

Tuesday Jun 13, 2023

קשה לעבור ברחוב היום בלי לשמוע מישהו מספר לחברו על צ'אט ג'י פי טי אוLLM
אחד החידושים באימון שלו, למעשה בInstructGPTהיו השימוש בלמידה חיזוקית על בסיס דאטא מתויג אנושי בתהליך הדגימה
נספר על אלגוריתם הRLHFושילובו בתוך מודלי השפהLLM

Sunday May 28, 2023

בפרק זה נדבר עם אוהד מדילטייל, העוסק בניתוח סיבתיות.
אנחנו כולנו למדנו בטירונות דאטא סיינס ש
Correlation does not imply causation
אבל מה כן ? האם חייבים לבצע ניסויים מדוקדקים? והאם זה רלוונטי רק לעולם הרפואה או לכולנו ?
 
קישורים:
DoWhy tutorials
אלגוריתמים - EconML docs
Guide - Athey, Stuart, Vogelstein 2021
מאמר של אוהד  https://arxiv.org/abs/2207.01722
 
מאמר Ascarza

Sunday May 14, 2023

וקטורים, וקטורים בכל מקום ! דיברנו על מילים שהופכות לוקטורים, מסמכים שהופכים לוקטורים, תמונות שהופכות לוקטורים.
אבל ברוב המקרים, נדרש חיפוש של וקטורים דומים למשימות של קלאסיפיקציה, דירוג ואפילו זיהוי אנומליות.
חיפוש וקטורי בקנה מידה גדול זו בעיה הנדסית לא פשוטה, עם אילוצי זמן ריצה וזכרון.
בפרק קצרצר זה, נסקור שלושה אלגוריתמים לחיפוש מקורב ונדבר על סוגי הוקטורים המתאימים.

Sunday Apr 16, 2023

פרק נוסף בתחום הלמידה החיזוקית, הפעם צוללים לפרטים הטכניים עם התאוריה מאחורי Replay Bufferסוכן, יכול ללמוד רק מהפעולות שלו - מה שנקרא
On Policyאו למידה גם מפעולות של סוכנים אחרים, מה שנקרא
Off Policyבגישת הריפליי באפר, שומרים "הקלטה" של פעולות עבר ותוצאות עבר - ודוגמים מתוכן לצרכי הלמידה.
שירלי תספר לנו על המחקר שלה לגבי השפעת גודל הבאפר, והשיפור בתוצאות של אימוני מודליRL

Wednesday Mar 15, 2023

פרק זה הוא חסות מיוחד בשיתוף אנבידיה, שמוקדש לג'וניורים.
אנבידיה הפיקה את כנס הGTCעם דגש מיוחד השנה של גנרטיב - להרשמה לחצו פה
בפרק ראיינו חמישה דאטא סיינטיסטים טריים: צחי מורד, טלחיים דמארי, נתי מגור, דין עזרא ואבי חביב.

Monday Mar 06, 2023

בפרק זה אירחנו את איתן נצר, מ
data heroes
לדבר על בחירה חכמה של דגימות לצורך אימון מודלים.
אנחנו בעידן הדאטא, נאספים טרות של אירועים מדי יום - אבל המודל שלנו לאו דווקא מרוויח מכל השפע הזה.האם אפשר להגיע לביצועים דומים עם שבריר הדאטא ובחירה חכמה של הדגימה ?
איתן יספר לנו על גישת ה
core set
שחקר, והחליט לימים להקים את דאטאהירוז על מנת להנגיש את הטכנולוגיה.
מבין המשקיעים בחברה, נמצא גם Andrew Ng
שהוא מאמין גדול ב
Data Centric AI
 
קישורים:
https://dataheroes.ai/
https://dataheroes.ai/introduction-to-coresets/

Monday Feb 20, 2023

בפרק זה נציג את אתגר הלווינות החדש בסדרת MAFAT Challenge.
אירחנו את ליאל ממפא"ת ואת שי ועידן מ-Webiks.
דיברנו על מהפכת החלל, האתגר בזיהוי אובייקטים מתצלומי לוויין במאפיינים שונים וההבדלים ביחס לגילוי אובייקטים קלאסיים.
 
קישור לתחרות:https://codalab.lisn.upsaclay.fr/competitions/9603

Thursday Feb 09, 2023

זיהוי אנומליות הוא נושא שימושי למגוון בעיות, זיהוי סנסורים דפוקים, אאוטליירים בדאטא או התנהגות חשודה.
הבעיה היא שזיהוי אנמליות בפני עצמו הא לא תמיד שימושי, אם אין פעולה שאפשר לבצע בעקבות החריגה.
נדבר על הגישות הקלאסיות לאנומלי, כגון
* Density estimation
* Auto regressive
* Distance based measures
ועל הבעייתיות שנובעת מחישוב מרחקים במימדים גבוהים.
אנדרס יציג את הגישה ההירכית שעבדה להם בריסקיפייד, המבוססת על אימון מספר גדול (6000) של מודלים ברמות שונות, והפעלת לוגיקה סטטיסטית על החריגות של כל מודל בפני עצמו.
הגישה שונה מגישות קודמות, שכן כל מודל משויך למטריקה - אזי אפשר לא רק לחזות אנומליות , אלא גם להסביר מדוע זו אנומליה ולסנן אך ורק לאנומליות עבורן יש פעולה שאפשר לנקוט.
 
קישורים:
problems and challenges related to anomaly detection on big data
The Curse of Dimensionality
 
Andres’ talk about their "new approach"

Sunday Jan 22, 2023

פרק זה הוא פרק סולו של אורי, בוא הוא יספר על החוויה שלו בפתיחת משרת ג'וניור בארגמקס.
המשרה זכתה לחשיפה גבוהה ברשתות החברתיות והגיעה ל40 אלף איש בעקבות שיטת הגיוס הלא שגרתית.
אורי יספר על מבחן הבית, ההיענות המפתיעה של מועמדים והביקורות שקיבל מקולגות לתחום.
באם יש לכם נסיון או מומחיות בתחום גיוס הג'וניורים, נשמח לפידבק בקבוצת הטלגרם שלנו
https://t.me/explainablepodcast
לעיון במבחן הבית:
https://argmax.ml/jr
 

Monday Jan 09, 2023

בפרק זה אירחנו את חי מרון מ
nvidia
לדבר על עיבוד גרפים עם רשתות נוירונים.
נדבר על ישומים של גרפים בחיים האמיתיים, ועל ההבדל האינהרנטי שבין גרף לבין "תמונה" או מטריצה כללית.
נדבר על 4 הגישות הרווחות למידול
שיטות ספקטרליות
מודלי העברת הודעות
רשתות אקוויורינטיות
וכמובן, טרנספורמרים
לקריאה נוספת:
https://www.cs.mcgill.ca/~wlh/grl_book/files/GRL_Book.pdf
הרצאה של חגי על יצוג גרפים כסימטריות
https://www.youtube.com/watch?v=k3E3XyMtQcA&list=PL7VfmMOOwNlJ5PndlhiMwjvqDTA6m1Z9i&index=2&t=120s
 

Monday Dec 19, 2022

בפרק קודם דיברנו על קודקס, מודל השפה שמאחורי
Github Co-Pilot
בפרק זה, החלטנו להעמיק ולראיין את ערן יהב, חוקר באקדמיה והמוח מאחורי
TabNine
ואורי אלון, פוסט דוקטורט בתחום שחוקר את הנושא הרבה לפני שזה היה מגניב.
נדבר על ההיסטוריה של התחום, גישות מבוססות גרפים, דקדוק ומה הקשר בין שפת התכנות ליכולת החיזוי.
כמו כן נדבר על אתגרים מוצריים ב
TabNine
ועל המעטפת הנדרשת להפיכת מודל למוצר שאנשים משתמשים בו ומרוצים ממנו.

Tuesday Dec 06, 2022

נראה שעולם המודלים הגיעה לבשלות, לא פעם יוצא לנסות כמה מודלים שונים ולהגיע לאותן מטריקות.
הטרנד של
data centric ai
שמוביל Andrew Ng
דוגל בגישה שהפוקוס צריך לעבור לבחירה נכונה של הדאטא, ויצירה חכמה של דאטא סינטתי יותר מאשר אופטימיזציה של מודלים.
סיגל שקד תספר לנו על הגישה החדשה וההבדלי מונחים אל מול גישות קלאסיות של
resampling / augmentation
קישורים רלוונטים:
imbalanced-learn
TGAN
CTGAN
TABDDPM
SDV
Commercial: gretel, datomize

Tuesday Nov 22, 2022

בפרק זה אירחנו את שי פרח ממכון וייצמן, מומחה להוראת המדעים.
בעידן שלנו, ללמוד לתכנת זה כישור יסוד כמו קריאה וכתיבה בעידן המחשב.
האם הגיע המקום לחשיבה בשיטת
ai4all
על משקל תנועת ה
coding4all
הפופולארי.
דיברנו על הכשרות בתחום הבינה המלאכותית בתוכנית הלימודים.
מה ההבדל בין "מדעי המחשב הקלאסי" לבין אפיון בעיה כ"למידת מכונה" מנקודת המבט של המהנדס.
 

Thursday Nov 03, 2022

מייק, אורח קבוע של הפודקאסט ידבר איתנו על
Normalized Flows
מודל חדש ליצירת תמונה מטקסט, או תמונה מתמונה בדומה ל
Diffusion model, GANS and VAE
נדבר על ההבדלים בין המודלים, על היתרון ב
density estimations
ונבחן לעומק את הבניה המיוחדת של ההמרה המתמטית שמאפשרת חישוב יעיל ומדויק של ההתפלגות

Tuesday Oct 18, 2022

בפרק זה אירחנו את ערן אילת האנומליה, לדבר על חיזוי אנומליות בתמונות..
חיזוי של חריגות הוא קריטי לתחומים רבים כמו סייבר, הונאה פיננסית ובקרה על מודלים.
בעולמות התמונה, נדבר על שלושת הסוגים של חריגות, חריגה מההתפלגות
OOD
חריגה סמנטית, אובייקט לא מוכר.
ולבסוף חריגה כזיהוי של פגם (למשל בעולם היצור)
 
נדבר איך מודלים מתחום התמונה כמו קונטרסטיב, גאנ וטרנספורמרים משמשים גם לזיהוי חריגות
קרדיט למחקר משותף: מתן טור פז

Monday Oct 03, 2022

תמיר ואורי, שניהם עוסקים כיועצים בתחום למידת המכונה - ועשו הרבה טעויות שניתן ללמוד מהם כשניגשים לפרויקט חדש.
בפרק זה, נדבר על שלושה פרויקטים לדוגמא - ומה הן השאלות והסוגיות שצריך להעלות לפני שמתחילים.
נדבר על מטריקות - איך מודדים פרויקט, על אתגרים טכניים.
איך בוחנים האם הדאטא מספק, והאם הארגון בכלל בשל ל
AI
והכי חשוב - תיאום ציפיות לתוצרים של הפרויקט.

Image

מי אנחנו

תמיר נווה, מומחה עיבוד תמונה ולמידה חיזוקית עם נסיון רב בתעשיות הבטחוניות ובהדרכה.
תמיר מוביל את ai-blog ואת המיזם ai-junk שמלמד ילדים על אינטלגנציה מלאכותית עם אביזרים שאפשר למצוא בכל בית.

אורי גורן מומחה עיבוד שפה ומערכות חיפוש והמלצה - מוביל את argmaxml.

 ארגמקס היא חברת יעוץ בתחום מודלי השפה, איחזור מידע, והמלצה בעזרת פתרונות AI.

אקספליינסל הוא מיתוג מחדש (יש שיגידו עונה שניה) של amlek.ai .

לפרטים נוספים על תמיר ואורי, האזינו לפרק 0 עלינו

Copyright 2021 All rights reserved.

Podcast Powered By Podbean

Version: 20240320