تسلط به مدلهای استدلال: الگوریتمها، بهینهسازی و کاربردها
✅ سرفصل و جزئیات آموزش
این دوره بررسی جامع مدلهای استدلال مدرن را ارائه میدهد و بر نوآوریهای الگوریتمی که مدلهایی مانند DeepSeek R1، OpenAI o1 و جایگزینهای متنباز آنها را به حرکت درمیآورند، تمرکز دارد. چهار رویکرد کلیدی برای ساخت LLMهای استدلالی را فرا بگیرید: مقیاسگذاری زمان استنتاج، یادگیری تقویتی خالص، SFT+RL، و تقطیر دانش.
از طریق مثالهای ملموس و فروکشیهای فنی، یاد بگیرید چگونه مقیاسگذاری محاسبه زمان آزمون را پیادهسازی کنید، مکانیکهای Group Relative Policy Optimization (GRPO) را درک کنید و خطوط لوله استنتاج کارآمد برای وظایف استدلالی بسازید. تا پایان دوره، باید دانش نظری و مهارتهای عملی برای بهرهبرداری از این فناوریهای پیشرفته در برنامههای خود را چه با منابع مقیاس سازمانی و چه با بودجههای محاسباتی محدودتر داشته باشید.
تسلط به مدلهای استدلال: الگوریتمها، بهینهسازی و کاربردها
-
چرا به مدلهای استدلالی نیاز دارید؟ 0:00:56
-
تغییر به مدلهای استدلالی 0:06:13
-
منظرهی استدلال 0:04:28
-
مقیاسگذاری زمان استنتاج 0:04:33
-
یادگیری تقویتی خالص 0:05:34
-
تنظیم دقیق نظارتشده (SFT) و یادگیری تقویتی 0:05:40
-
تقطیر و SFT خالص 0:05:12
-
تصویّت اکثریت و خودسازگاری 0:04:48
-
بهترین از n و ترکیب وزندار 0:05:15
-
جستجوی شعاعی با مدلهای پاداش فرایند 0:03:55
-
جستجوی درختی تأییدکننده متنوع (DVTS) 0:04:10
-
فراتر از RLHF: بهینهسازی سیاست نسبت گروهی (GRPO) 0:04:50
-
تابعهای پاداش برای استدلال 0:05:53
-
لحظهی 0:03:15
-
مقیاسگذاری محاسبه بهینه در تولید 0:06:37
-
مدلهای استدلالی مقرون به صرفه 0:03:46
-
توازن میان هزینه و عملکرد 0:04:13
-
جهتگیریهای آینده در مدلهای استدلالی LLM 0:01:04
مشخصات آموزش
تسلط به مدلهای استدلال: الگوریتمها، بهینهسازی و کاربردها
- تاریخ به روز رسانی: 1404/10/04
- سطح دوره:پیشرفته
- تعداد درس:18
- مدت زمان :1:20:22
- حجم :144.0MB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy