آموزش Apache Iceberg - راهنمای مبتدیان

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

کسب درک عمیق از معماری Apache Iceberg، نقش آن در اکوسیستم مدرن data lakehouse و دلیل برتری آن نسبت به فرمت‌های سنتی جدول
یاد می‌گیرید که چگونه با استفاده از پایتون (PyIceberg)، رابط‌های SQL و کاتالوگ‌های متادیتا - بر اساس مثال‌های عملی و واقعی - جداول Iceberg را ایجاد، مدیریت و کوئری کنید.
ساخت پایپ‌لاین‌های داده با عملکرد بالا برای پردازش دسته‌ای و استریمینگ با یکپارچه‌سازی Iceberg با موتورهای پیشرو مانند آپاچی اسپارک، Polars Trino و DuckDB
بررسی می‌کنید که چگونه از ذخیره‌سازی cloud-native با AWS S3 استفاده کرده و جداول Iceberg مقیاس‌پذیر طراحی کنید که از تحلیل توزیع‌ شده در مقیاس بزرگ پشتیبانی می‌کنند.
اعمال تکنیک‌های پرفورمنس تیونینگ مانند فشرده‌سازی فایل، هرس کردن پارتیشن و کش کردن متادیتا برای بهینه‌سازی سرعت کوئری و کاهش هزینه‌های محاسباتی
کار با ابزارهای مدرن تحلیلی پایتون مانند Polars و DuckDB برای پردازش سریع in-memory که گردش‌کارهای سریع اکتشاف، تست و اعتبارسنجی داده را فراهم می‌کند.

پیش‌نیازهای دوره

دانش اولیه از پایتون، SQL و مفاهیم داده‌ مفید است، اما نیازی به تجربه قبلی با Apache Iceberg یا ابزارهای ابری نیست.

توضیحات دوره

به مهندسی Data Lakehouse با Apache Iceberg - از مبانی به بهترین شیوه‌ها خوش آمدید که راهنمای کامل شما برای تسلط به نسل بعدی فرمت‌های جدول باز برای تحلیل در مقیاس بزرگ است.

با حرکت جهان داده به سمت فراتر از دریاچه‌های داده سنتی و انبارهای داده گران‌قیمت، Apache Iceberg به سرعت در حال تبدیل شدن به سنگ بنای معماری مدرن داده‌ است. Apache Iceberg برای مجموعه‌ داده‌های در مقیاس بزرگ petabyte طراحی شده و تراکنش های ACID، تکامل اسکیما، time travel، هرس کردن پارتیشن و سازگاری در چندین موتور را به یک فرمت باز و بدون وابستگی به فروشنده فراهم می‌آورد.

در این دوره عملی، فراتر از مبانی پیش خواهید رفت. شما پایپ‌لاین‌های واقعی data lakehouse را با استفاده از ابزارهای قدرتمند مانند زیر می‌سازید:

PyIceberg - دسترسی برنامه‌ای به جداول Iceberg در پایتون
Polars - کتابخانه دیتافریم با سرعت نور برای تبدیلات in-memory
DuckDB - نیروگاه SQL محلی برای توسعه تعاملی
آپاچی اسپارک - برای پردازش دسته‌ای و استریمینگ در مقیاس بزرگ
AWS S3 - ذخیره‌سازی آبجکت cloud-native برای جداول Iceberg
و بسیاری موارد دیگر - SQL ،Parquet ،Glue ،Athena و یوتیلیتی‌های مدرن متن‌باز

آنچه این دوره را خاص می‌کند؟

عملی و غنی از ابزار - دوره فقط درباره اسپارک نیست، بلکه یاد می‌گیرید که چگونه Iceberg را با موتورهای مدرن مانند Polars و DuckDB استفاده کنید.
معماری آماده برای ابر - یاد می‌گیرید که چگونه جداول Iceberg خود را در AWS S3 ذخیره و مدیریت کنید و از استقرارهای مقیاس‌پذیر و مقرون به صرفه بهره‌مند شوید.
مفاهیم + پروژه‌های عملی - فرمت‌های جدول، مدیریت کاتالوگ و تکامل اسکیما را درک می‌کنید و سپس آنها را با استفاده از مجموعه‌های داده واقعی به کار می‌بندید.
تمرکز بر متن‌باز - بدون وابستگی به فروشنده - شما با استفاده از ابزارهای متن‌باز و کامیونیتی محور، پایپ‌لاین‌های قابل تعامل ایجاد خواهید کرد.

آنچه یاد خواهید گرفت:

دلیل و چگونگی نقش Apache Iceberg در اکوسیستم data lakehouse
طراحی جداول Iceberg با تکامل اسکیما، پارتیشن‌بندی و مدیریت متادیتا
چگونه جداول Iceberg را با استفاده از پایتون (PyIceberg)، SQL و اسپارک، کوئری و دستکاری کنیم؟
یکپارچه‌سازی واقعی با DuckDB و Polars
استفاده از ذخیره‌سازی آبجکت S3 برای جداول cloud-native Iceberg
انجام time travel، خواندن تدریجی و rollbacks مبتنی بر اسنپ‌شات
بهینه‌سازی عملکرد با فشرده‌سازی فایل، آمار و خوشه‌بندی
ایجاد پایپ‌لاین‌های داده قابل بازتولید، مقیاس‌پذیر و قابل نگهداری

این دوره برای چه کسانی مناسب است؟

مهندسان و معماران داده که در حال ساخت سیستم‌های lakehouse مدرن هستند.
توسعه‌دهندگان پایتون که با مجموعه‌ داده‌ها در مقیاس بزرگ و تحلیل داده کار می‌کنند.
حرفه‌ای‌های ابر که از AWS S3 برای دریاچه‌های داده استفاده می‌کنند.
تحلیلگران یا مهندسانی که از انبارهای Hive، دریاچه دلتا یا انبارهای سنتی بیرون می‌آیند.
کسی که به مهندسی داده، تحلیل و نوآوری متن‌باز علاقه‌مند است.

ابزارها و فناوری‌هایی که از آنها استفاده خواهید کرد:

Apache Iceberg ،PyIceberg و اسپارک
DuckDB ،Polars ،Pandas ،SQL ،AWS S3 و Parquet
یکپارچه‌سازی با Metastore و کاتالوگ‌ها (REST و Glue)
بخش عملی با Jupyter Notebooks و CLI

در پایان دوره، شما قادر خواهید بود تا راه‌حل‌های data lakehouse را با استفاده از Apache Iceberg و یک اکوسیستم غنی از ابزارهای متن‌باز با اطمینان و کارآمدی، طراحی، مستقر و مقیاس‌‌بندی کنید.

این دوره برای چه کسانی مناسب است؟