Episodes
Wednesday Feb 16, 2022
Proximal Policy Optimization מה זה
Wednesday Feb 16, 2022
Wednesday Feb 16, 2022
כבר התרגלנו בעולם המשין לרנינג, ששום מודל לא שורד יותר משנה-שנתיים בתור ה
SOTA
עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על
PPO
שנשאר הגישה הדומיננטי ב
Reinforcement learning
כבר חמש שנים, ולא נראה שהוא הולך לשום מקום.
נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי"
Version: 20240731
Comments (0)
To leave or reply to comments, please download free Podbean or
No Comments
To leave or reply to comments,
please download free Podbean App.