هوش مصنوعی، یادگیری ماشین و GenAI روی NVIDIA H100 GPUs در Red Hat OpenShift AI
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- نصب گره H100 Bare‑Metal، اعتبارسنجی سفتافزار و BIOS و رجیستر آن در خوشه جدید OpenShift
- نصب و تیونینگ NVIDIA GPU Operator همراه با پروفایلهای Multi‑Instance GPU (MIG) برای حداکثر بهرهبرداری
- نصب Red Hat OpenShift AI (RHOAI) و اجرای حجم کار واقعی LLM Mistral با Ollama
- نظارت، عیبیابی، ارتقا و مقیاسبندی این پلتفرم در محیط تولید
پیشنیازهای دوره
- سرور NVIDIA H100 (یا یک Ampere/Hopper) فیزیکی یا مجازی
- یک ایستگاه کاری که بتوان SSH را به گره متصل کرد و CLI oc را اجرا کرد.
- (اختیاری) حساب Red Hat برای pull کردن تصاویر آینه شده
توضیحات دوره
شما قدرت هوش مصنوعی سطح سازمانی را در دیتاسنتر خودتان از ابتدا تا انتها بدون تئوری، گامبهگام، از Bare‑Metal تا آماده برای تولید کشف میکنید. در این ورکشاپ عملی یاد خواهید گرفت چگونه یک سرور NVIDIA H100 و میزبان مجازیسازی سبک وزن را به یک خوشه OpenShift کامل با ویژگیهای کامل Red Hat OpenShift تبدیل کنید که OpenShift AI و NVIDIA GPU Operator و حجم کارهای واقعی LLM (Mistral‑7B با Ollama) را اجرا میکند. ما اسلایدهای نظری را میگذرانیم و مستقیماً به صفحهکلیدها و ترمینالها -هر YAML، هر تاگل BIOS، هر ترفند عیبیابی روی ویدئو - میپردازیم.
آنچه خواهید ساخت:
- یک کنترل پلن مجازی سه گره و یک bare-metal GPU worker، با استفاده از نصبکننده جدید مبتنی بر ایجنت
- GPU Operator با اسلایس کردن MIG، پایداری UUID و متریکهای لایو در Grafana
- OpenShift AI (RHODS) همراه با Jupyter و پایپلاینهای سرویس مدل
- یک لودبالانسر درجه تولید، DNS zone و HTTPS ingress - بدون نیاز به ابر مدیریت شده
مکانیسم عملی در هر مرحله - شما سفتافزار را از طریق iDRAC بررسی میکنید، تنظیمات BIOS را پچ میکنید، ISO ایجنت سفارشی تولید میکنید، خوشه را بوت میکنید، گره GPU را به آن اضافه میکنید و یک اندپوینت LLM را پوش میکنید که حتی در کمتر از یک دقیقه با curl قابل دسترسی است. در طول مسیر، OpenShift را ارتقا میدهیم، بر دمای GPU نظارت میکنیم و سناریوی «Node Not Ready» را بهبود میدهیم، چون زندگی واقعی اتفاق میافتد.
کسانی که باید در دوره شرکت کنند؟
مهندسان دواپس، SREs و متخصصان یادگیری ماشین که دسترسی به سرور GPU (H100 و H800 یا حتی A100) دارند و میخواهند مسیر نصب قابل تکرار و سازگار با سازمان را داشته باشند. مهارتهای اولیه لینوکس و kubectl فرض شدهاند. سایر موارد در طول دوره آموزش داده میشود.
در پایان دوره، شما یک مخزن گیت battle-tested حاوی مانیفستها، یک پایپلاین خصوصی ISO ایجنت که میتوانید برای سایتهای جدید کلونسازی کنید و اعتمادبهنفس راهاندازی یا مقیاسپذیری پلتفرم OpenShift AI تسریع شده روی GPU را خواهید داشت. همین امروز به ما بپیوندید و اولین بار حجم کار on-prem LLM خود را منتقل دهید.
این دوره برای چه کسانی مناسب است؟
- مهندسان یادگیری ماشین
- مهندسان دواپس
- مهندسان قابلیت اطمینان سایت (SREs)
- توسعهدهندگان پایتون که در حال کشف زیرساخت هستند.
- افراد جدید در عملیاتهای هوش مصنوعی
هوش مصنوعی، یادگیری ماشین و GenAI روی NVIDIA H100 GPUs در Red Hat OpenShift AI
-
بررسی دوره 06:15
-
معماری زیرساخت 03:51
-
راهاندازی لابراتوار 03:55
-
نصب VMware ESXi 10:17
-
نصب RHEL روی میزبان Jump 05:14
-
کنترل پنل و ایجنت OpenShift 16:39
-
بررسی گره NVIDIA از طریق iDRAC 06:17
-
آمادهسازی شبکه 05:22
-
نصب OCP از ISO ایجنت 15:33
-
نصب NVIDIA GPU Operator 07:15
-
اجرای inference-benchmarker 08:13
مشخصات آموزش
هوش مصنوعی، یادگیری ماشین و GenAI روی NVIDIA H100 GPUs در Red Hat OpenShift AI
- تاریخ به روز رسانی: 1404/09/07
- سطح دوره:همه سطوح
- تعداد درس:11
- مدت زمان :01:28:51
- حجم :816.0MB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy