آموزش Apache Iceberg - راهنمای مبتدیان
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- کسب درک عمیق از معماری Apache Iceberg، نقش آن در اکوسیستم مدرن data lakehouse و دلیل برتری آن نسبت به فرمتهای سنتی جدول
- یاد میگیرید که چگونه با استفاده از پایتون (PyIceberg)، رابطهای SQL و کاتالوگهای متادیتا - بر اساس مثالهای عملی و واقعی - جداول Iceberg را ایجاد، مدیریت و کوئری کنید.
- ساخت پایپلاینهای داده با عملکرد بالا برای پردازش دستهای و استریمینگ با یکپارچهسازی Iceberg با موتورهای پیشرو مانند آپاچی اسپارک، Polars Trino و DuckDB
- بررسی میکنید که چگونه از ذخیرهسازی cloud-native با AWS S3 استفاده کرده و جداول Iceberg مقیاسپذیر طراحی کنید که از تحلیل توزیع شده در مقیاس بزرگ پشتیبانی میکنند.
- اعمال تکنیکهای پرفورمنس تیونینگ مانند فشردهسازی فایل، هرس کردن پارتیشن و کش کردن متادیتا برای بهینهسازی سرعت کوئری و کاهش هزینههای محاسباتی
- کار با ابزارهای مدرن تحلیلی پایتون مانند Polars و DuckDB برای پردازش سریع in-memory که گردشکارهای سریع اکتشاف، تست و اعتبارسنجی داده را فراهم میکند.
پیشنیازهای دوره
- دانش اولیه از پایتون، SQL و مفاهیم داده مفید است، اما نیازی به تجربه قبلی با Apache Iceberg یا ابزارهای ابری نیست.
توضیحات دوره
به مهندسی Data Lakehouse با Apache Iceberg - از مبانی به بهترین شیوهها خوش آمدید که راهنمای کامل شما برای تسلط به نسل بعدی فرمتهای جدول باز برای تحلیل در مقیاس بزرگ است.
با حرکت جهان داده به سمت فراتر از دریاچههای داده سنتی و انبارهای داده گرانقیمت، Apache Iceberg به سرعت در حال تبدیل شدن به سنگ بنای معماری مدرن داده است. Apache Iceberg برای مجموعه دادههای در مقیاس بزرگ petabyte طراحی شده و تراکنش های ACID، تکامل اسکیما، time travel، هرس کردن پارتیشن و سازگاری در چندین موتور را به یک فرمت باز و بدون وابستگی به فروشنده فراهم میآورد.
در این دوره عملی، فراتر از مبانی پیش خواهید رفت. شما پایپلاینهای واقعی data lakehouse را با استفاده از ابزارهای قدرتمند مانند زیر میسازید:
- PyIceberg - دسترسی برنامهای به جداول Iceberg در پایتون
- Polars - کتابخانه دیتافریم با سرعت نور برای تبدیلات in-memory
- DuckDB - نیروگاه SQL محلی برای توسعه تعاملی
- آپاچی اسپارک - برای پردازش دستهای و استریمینگ در مقیاس بزرگ
- AWS S3 - ذخیرهسازی آبجکت cloud-native برای جداول Iceberg
- و بسیاری موارد دیگر - SQL ،Parquet ،Glue ،Athena و یوتیلیتیهای مدرن متنباز
آنچه این دوره را خاص میکند؟
- عملی و غنی از ابزار - دوره فقط درباره اسپارک نیست، بلکه یاد میگیرید که چگونه Iceberg را با موتورهای مدرن مانند Polars و DuckDB استفاده کنید.
- معماری آماده برای ابر - یاد میگیرید که چگونه جداول Iceberg خود را در AWS S3 ذخیره و مدیریت کنید و از استقرارهای مقیاسپذیر و مقرون به صرفه بهرهمند شوید.
- مفاهیم + پروژههای عملی - فرمتهای جدول، مدیریت کاتالوگ و تکامل اسکیما را درک میکنید و سپس آنها را با استفاده از مجموعههای داده واقعی به کار میبندید.
- تمرکز بر متنباز - بدون وابستگی به فروشنده - شما با استفاده از ابزارهای متنباز و کامیونیتی محور، پایپلاینهای قابل تعامل ایجاد خواهید کرد.
آنچه یاد خواهید گرفت:
- دلیل و چگونگی نقش Apache Iceberg در اکوسیستم data lakehouse
- طراحی جداول Iceberg با تکامل اسکیما، پارتیشنبندی و مدیریت متادیتا
- چگونه جداول Iceberg را با استفاده از پایتون (PyIceberg)، SQL و اسپارک، کوئری و دستکاری کنیم؟
- یکپارچهسازی واقعی با DuckDB و Polars
- استفاده از ذخیرهسازی آبجکت S3 برای جداول cloud-native Iceberg
- انجام time travel، خواندن تدریجی و rollbacks مبتنی بر اسنپشات
- بهینهسازی عملکرد با فشردهسازی فایل، آمار و خوشهبندی
- ایجاد پایپلاینهای داده قابل بازتولید، مقیاسپذیر و قابل نگهداری
این دوره برای چه کسانی مناسب است؟
- مهندسان و معماران داده که در حال ساخت سیستمهای lakehouse مدرن هستند.
- توسعهدهندگان پایتون که با مجموعه دادهها در مقیاس بزرگ و تحلیل داده کار میکنند.
- حرفهایهای ابر که از AWS S3 برای دریاچههای داده استفاده میکنند.
- تحلیلگران یا مهندسانی که از انبارهای Hive، دریاچه دلتا یا انبارهای سنتی بیرون میآیند.
- کسی که به مهندسی داده، تحلیل و نوآوری متنباز علاقهمند است.
ابزارها و فناوریهایی که از آنها استفاده خواهید کرد:
- Apache Iceberg ،PyIceberg و اسپارک
- DuckDB ،Polars ،Pandas ،SQL ،AWS S3 و Parquet
- یکپارچهسازی با Metastore و کاتالوگها (REST و Glue)
- بخش عملی با Jupyter Notebooks و CLI
در پایان دوره، شما قادر خواهید بود تا راهحلهای data lakehouse را با استفاده از Apache Iceberg و یک اکوسیستم غنی از ابزارهای متنباز با اطمینان و کارآمدی، طراحی، مستقر و مقیاسبندی کنید.
این دوره برای چه کسانی مناسب است؟
- حرفهایهای داده و مبتدیانی که میخواهند راهحلهای مقیاسپذیر و مدرن data lakehouse را با استفاده از Apache Iceberg و ابزارهای متنباز بسازند.
آموزش Apache Iceberg - راهنمای مبتدیان
-
انبار داده در مقابل دریاچه داده در مقابل data lakehouse 09:08
-
انبار داده به data lakehouse 07:51
-
تکامل Iceberg و صنعت 07:50
-
Apache Iceberg چیست؟ 10:16
-
محدودیتهای فرمتهای جدول سنتی (Hive و Parquet-only و غیره) 11:05
-
ویژگیهای کلیدی Iceberg (تکامل اسکیما، ACID، پارتیشنبندی و غیره) 12:47
-
پسزمینه Iceberg 07:49
-
نصب با استفاده از ترمینال 04:58
-
نصب Jupyter Notebook 03:01
-
نصب کتابخانهها (PyIceberg ،Polars و DuckDB) 03:34
-
درک کاتالوگها 10:32
-
راهاندازی اولیه کاتالوگ محلی PyIceberg 04:38
-
ایجاد و انتخاب رکوردها با PyIceberg 09:17
-
فیلترینگ رکوردها با PyIceberg در کاتالوگ محلی 05:52
-
مقدمه Polars 03:16
-
Pandas در مقابل Polars 04:05
-
معماری Polars و Iceberg 02:42
-
Polars و کاتالوگ محلی 05:16
-
فیلترینگ با Polars و کاتالوگ محلی 05:54
-
معماری اسپارک و Iceberg 03:09
-
ایجاد کاتالوگ محلی با اسپارک 02:54
-
ایجاد جدول در کاتالوگ محلی با اسپارک 05:20
-
نصب PySpark روی سیستم محلی 01:37
-
ایجاد کاتالوگ محلی روی PyIceberg با PySpark 02:54
-
ایجاد جدول با استفاده از کوئری در PySpark 05:20
-
ایجاد جدول با استفاده از کد با PySpark 06:06
-
انتخاب رکوردها از کاتالوگ محلی با PySpark 03:06
-
توابع تجمیع در PySpark 05:29
-
فیلترها در کاتالوگ با PySpark 04:30
-
مقدمه DuckDB 06:41
-
ویژگیهای کلیدی DuckDB 09:09
-
خواندن جدول DuckDB با استفاده از کاتالوگ 04:36
-
اعمال فیلترهای DuckDB روی جداول کاتالوگ 04:50
-
کاتالوگ PyIceberg با PostgreSQL 08:29
-
جداول متادیتای کاتالوگ Postgres 01:38
-
ایجاد کاربر در AWS 06:02
-
PyIceberg با کاتالوگ S3 08:37
-
PyIceberg با اسپارک و کاتالوگ S3 09:18
-
PyIceberg با اسپارک و کاتالوگ Glue 05:11
-
PyIceberg با DuckDB و کاتالوگ S3 05:10
-
عملیاتهای درج و بروزرسانی روی Iceberg 12:23
-
حذف رکوردها در Iceberg 07:09
-
Time Travel با PySpark و PyIceberg 06:37
-
اسکیما و تکامل در Iceberg 10:28
-
ویژگیهای جدول فشردهسازی در Iceberg 05:25
-
پارتیشنبندی بدون ستونهای پارتیشن 07:13
-
پارتیشن پنهان با استفاده از Iceberg 06:59
-
مقدمه کاتالوگ Nessie 06:29
-
نصب Nessie 03:46
-
مثال اولین کاتالوگ Nessie 10:43
-
فرمانهای Nessie 11:11
-
بازی کردن با برنچها در Nessie 09:09
-
ایجاد و حذف برنچها در Nessie 07:48
-
Iceberg در مقابل دریاچه دلتا در مقابل Apache Hudi 09:07
-
ارتقای نسخه DuckDB: 1.3 06:26
-
اتصال Ducklake به AWS S3 09:54
-
متادیتا در Duck-lake 09:22
-
ردیابی تغییرات اسنپشات متادیتا در Duck-lake 07:41
-
خواندن فایل Parquet از S3 در Duck-lake 06:49
-
ویژگی Time Travel در Duck-lake 06:13
-
ردیابی Time Travel با استفاده از زمان در Duck-lake 09:14
-
تراکنشهای ACID چندجدولی در Duck-lake 06:42
مشخصات آموزش
آموزش Apache Iceberg - راهنمای مبتدیان
- تاریخ به روز رسانی: 1404/06/21
- سطح دوره:همه سطوح
- تعداد درس:62
- مدت زمان :06:58:17
- حجم :2.21GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy