هوش مصنوعی، یادگیری ماشین و GenAI روی NVIDIA H100 GPUs در Red Hat OpenShift AI

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

نصب گره H100 Bare‑Metal، اعتبارسنجی سفت‌افزار و BIOS و رجیستر آن در خوشه جدید OpenShift
نصب و تیونینگ NVIDIA GPU Operator همراه با پروفایل‌های Multi‑Instance GPU (MIG) برای حداکثر بهره‌برداری
نصب Red Hat OpenShift AI (RHOAI) و اجرای حجم کار واقعی LLM Mistral با Ollama
نظارت، عیب‌یابی، ارتقا و مقیاس‌بندی این پلتفرم در محیط تولید

پیش‌نیازهای دوره

سرور NVIDIA H100 (یا یک Ampere/Hopper) فیزیکی یا مجازی
یک ایستگاه کاری که بتوان SSH را به گره متصل کرد و CLI oc را اجرا کرد.
(اختیاری) حساب Red Hat برای pull کردن تصاویر آینه شده

توضیحات دوره

شما قدرت هوش مصنوعی سطح سازمانی را در دیتاسنتر خودتان از ابتدا تا انتها بدون تئوری، گام‌به‌گام، از Bare‑Metal تا آماده برای تولید کشف می‌کنید. در این ورک‌شاپ عملی یاد خواهید گرفت چگونه یک سرور NVIDIA H100 و میزبان مجازی‌سازی سبک وزن را به یک خوشه OpenShift کامل با ویژگی‌های کامل Red Hat OpenShift تبدیل کنید که OpenShift AI و NVIDIA GPU Operator و حجم کارهای واقعی LLM (Mistral‑7B با Ollama) را اجرا می‌کند. ما اسلایدهای نظری را می‌گذرانیم و مستقیماً به صفحه‌کلیدها و ترمینال‌ها -هر YAML، هر تاگل BIOS، هر ترفند عیب‌یابی روی ویدئو - می‌پردازیم.

آنچه خواهید ساخت:

یک کنترل پلن مجازی سه گره و یک bare-metal GPU worker، با استفاده از نصب‌کننده جدید مبتنی بر ایجنت
GPU Operator با اسلایس کردن MIG، پایداری UUID و متریک‌های لایو در Grafana
OpenShift AI (RHODS) همراه با Jupyter و پایپ‌لاین‌های سرویس مدل
یک لودبالانسر درجه تولید، DNS zone و HTTPS ingress - بدون نیاز به ابر مدیریت‌ شده

مکانیسم عملی در هر مرحله - شما سفت‌افزار را از طریق iDRAC بررسی می‌کنید، تنظیمات BIOS را پچ می‌کنید، ISO ایجنت سفارشی تولید می‌کنید، خوشه را بوت می‌کنید، گره GPU را به آن اضافه می‌کنید و یک اندپوینت LLM را پوش می‌کنید که حتی در کمتر از یک دقیقه با curl قابل دسترسی است. در طول مسیر، OpenShift را ارتقا می‌دهیم، بر دمای GPU نظارت می‌کنیم و سناریوی «Node Not Ready» را بهبود می‌دهیم، چون زندگی واقعی اتفاق می‌افتد.

کسانی که باید در دوره شرکت کنند؟

مهندسان دواپس، SREs و متخصصان یادگیری ماشین که دسترسی به سرور GPU (H100 و H800 یا حتی A100) دارند و می‌خواهند مسیر نصب قابل تکرار و سازگار با سازمان را داشته باشند. مهارت‌های اولیه لینوکس و kubectl فرض شده‌اند. سایر موارد در طول دوره آموزش داده می‌شود.

در پایان دوره، شما یک مخزن گیت battle-tested حاوی مانیفست‌ها، یک پایپ‌لاین خصوصی ISO ایجنت که می‌توانید برای سایت‌های جدید کلون‌سازی کنید و اعتمادبه‌نفس راه‌اندازی یا مقیاس‌پذیری پلتفرم OpenShift AI تسریع‌ شده روی GPU را خواهید داشت. همین امروز به ما بپیوندید و اولین بار حجم کار on-prem LLM خود را منتقل دهید.

این دوره برای چه کسانی مناسب است؟