دوره آموزشی
آموزش های یودمی
دوبله زبان فارسی

آموزش Apache Iceberg - راهنمای مبتدیان

آموزش Apache Iceberg - راهنمای مبتدیان

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

  • کسب درک عمیق از معماری Apache Iceberg، نقش آن در اکوسیستم مدرن data lakehouse و دلیل برتری آن نسبت به فرمت‌های سنتی جدول
  • یاد می‌گیرید که چگونه با استفاده از پایتون (PyIceberg)، رابط‌های SQL و کاتالوگ‌های متادیتا - بر اساس مثال‌های عملی و واقعی - جداول Iceberg را ایجاد، مدیریت و کوئری کنید.
  • ساخت پایپ‌لاین‌های داده با عملکرد بالا برای پردازش دسته‌ای و استریمینگ با یکپارچه‌سازی Iceberg با موتورهای پیشرو مانند آپاچی اسپارک، Polars Trino و DuckDB
  • بررسی می‌کنید که چگونه از ذخیره‌سازی cloud-native با AWS S3 استفاده کرده و جداول Iceberg مقیاس‌پذیر طراحی کنید که از تحلیل توزیع‌ شده در مقیاس بزرگ پشتیبانی می‌کنند.
  • اعمال تکنیک‌های پرفورمنس تیونینگ مانند فشرده‌سازی فایل، هرس کردن پارتیشن و کش کردن متادیتا برای بهینه‌سازی سرعت کوئری و کاهش هزینه‌های محاسباتی
  • کار با ابزارهای مدرن تحلیلی پایتون مانند Polars و DuckDB برای پردازش سریع in-memory که گردش‌کارهای سریع اکتشاف، تست و اعتبارسنجی داده را فراهم می‌کند.

پیش‌نیازهای دوره

  • دانش اولیه از پایتون، SQL و مفاهیم داده‌ مفید است، اما نیازی به تجربه قبلی با Apache Iceberg یا ابزارهای ابری نیست.

توضیحات دوره

به مهندسی Data Lakehouse با Apache Iceberg - از مبانی به بهترین شیوه‌ها خوش آمدید که راهنمای کامل شما برای تسلط به نسل بعدی فرمت‌های جدول باز برای تحلیل در مقیاس بزرگ است.

با حرکت جهان داده به سمت فراتر از دریاچه‌های داده سنتی و انبارهای داده گران‌قیمت، Apache Iceberg به سرعت در حال تبدیل شدن به سنگ بنای معماری مدرن داده‌ است. Apache Iceberg برای مجموعه‌ داده‌های در مقیاس بزرگ petabyte طراحی شده و تراکنش های ACID، تکامل اسکیما، time travel، هرس کردن پارتیشن و سازگاری در چندین موتور را به یک فرمت باز و بدون وابستگی به فروشنده فراهم می‌آورد.

در این دوره عملی، فراتر از مبانی پیش خواهید رفت. شما پایپ‌لاین‌های واقعی data lakehouse را با استفاده از ابزارهای قدرتمند مانند زیر می‌سازید:

  • PyIceberg - دسترسی برنامه‌ای به جداول Iceberg در پایتون
  • Polars - کتابخانه دیتافریم با سرعت نور برای تبدیلات in-memory
  • DuckDB - نیروگاه SQL محلی برای توسعه تعاملی
  • آپاچی اسپارک - برای پردازش دسته‌ای و استریمینگ در مقیاس بزرگ
  • AWS S3 - ذخیره‌سازی آبجکت cloud-native برای جداول Iceberg
  • و بسیاری موارد دیگر - SQL ،Parquet ،Glue ،Athena و یوتیلیتی‌های مدرن متن‌باز

آنچه این دوره را خاص می‌کند؟

  • عملی و غنی از ابزار - دوره فقط درباره اسپارک نیست، بلکه یاد می‌گیرید که چگونه Iceberg را با موتورهای مدرن مانند Polars و DuckDB استفاده کنید.
  • معماری آماده برای ابر - یاد می‌گیرید که چگونه جداول Iceberg خود را در AWS S3 ذخیره و مدیریت کنید و از استقرارهای مقیاس‌پذیر و مقرون به صرفه بهره‌مند شوید.
  • مفاهیم + پروژه‌های عملی - فرمت‌های جدول، مدیریت کاتالوگ و تکامل اسکیما را درک می‌کنید و سپس آنها را با استفاده از مجموعه‌های داده واقعی به کار می‌بندید.
  • تمرکز بر متن‌باز - بدون وابستگی به فروشنده - شما با استفاده از ابزارهای متن‌باز و کامیونیتی محور، پایپ‌لاین‌های قابل تعامل ایجاد خواهید کرد.

آنچه یاد خواهید گرفت:

  • دلیل و چگونگی نقش Apache Iceberg در اکوسیستم data lakehouse
  • طراحی جداول Iceberg با تکامل اسکیما، پارتیشن‌بندی و مدیریت متادیتا
  • چگونه جداول Iceberg را با استفاده از پایتون (PyIceberg)، SQL و اسپارک، کوئری و دستکاری کنیم؟
  • یکپارچه‌سازی واقعی با DuckDB و Polars
  • استفاده از ذخیره‌سازی آبجکت S3 برای جداول cloud-native Iceberg
  • انجام time travel، خواندن تدریجی و rollbacks مبتنی بر اسنپ‌شات
  • بهینه‌سازی عملکرد با فشرده‌سازی فایل، آمار و خوشه‌بندی
  • ایجاد پایپ‌لاین‌های داده قابل بازتولید، مقیاس‌پذیر و قابل نگهداری

این دوره برای چه کسانی مناسب است؟

  • مهندسان و معماران داده که در حال ساخت سیستم‌های lakehouse مدرن هستند.
  • توسعه‌دهندگان پایتون که با مجموعه‌ داده‌ها در مقیاس بزرگ و تحلیل داده کار می‌کنند.
  • حرفه‌ای‌های ابر که از AWS S3 برای دریاچه‌های داده استفاده می‌کنند.
  • تحلیلگران یا مهندسانی که از انبارهای Hive، دریاچه دلتا یا انبارهای سنتی بیرون می‌آیند.
  • کسی که به مهندسی داده، تحلیل و نوآوری متن‌باز علاقه‌مند است.

ابزارها و فناوری‌هایی که از آنها استفاده خواهید کرد:

  • Apache Iceberg ،PyIceberg و اسپارک
  • DuckDB ،Polars ،Pandas ،SQL ،AWS S3 و Parquet
  • یکپارچه‌سازی با Metastore و کاتالوگ‌ها (REST و Glue)
  • بخش عملی با Jupyter Notebooks و CLI

در پایان دوره، شما قادر خواهید بود تا راه‌حل‌های data lakehouse را با استفاده از Apache Iceberg و یک اکوسیستم غنی از ابزارهای متن‌باز با اطمینان و کارآمدی، طراحی، مستقر و مقیاس‌‌بندی کنید.

این دوره برای چه کسانی مناسب است؟

  • حرفه‌ای‌های داده و مبتدیانی که می‌خواهند راه‌حل‌های مقیاس‌پذیر و مدرن data lakehouse را با استفاده از Apache Iceberg و ابزارهای متن‌باز بسازند.

آموزش Apache Iceberg - راهنمای مبتدیان

  • انبار داده در مقابل دریاچه داده در مقابل data lakehouse 09:08
  • انبار داده به data lakehouse 07:51
  • تکامل Iceberg و صنعت 07:50
  • Apache Iceberg چیست؟ 10:16
  • محدودیت‌های فرمت‌های جدول سنتی (Hive و Parquet-only و غیره) 11:05
  • ویژگی‌های کلیدی Iceberg (تکامل اسکیما، ACID، پارتیشن‌بندی و غیره) 12:47
  • پس‌زمینه Iceberg 07:49
  • نصب با استفاده از ترمینال 04:58
  • نصب Jupyter Notebook 03:01
  • نصب کتابخانه‌ها (PyIceberg ،Polars و DuckDB) 03:34
  • درک کاتالوگ‌ها 10:32
  • راه‌اندازی اولیه کاتالوگ محلی PyIceberg 04:38
  • ایجاد و انتخاب رکوردها با PyIceberg 09:17
  • فیلترینگ رکوردها با PyIceberg در کاتالوگ محلی 05:52
  • مقدمه‌ Polars 03:16
  • Pandas در مقابل Polars 04:05
  • معماری Polars و Iceberg 02:42
  • Polars و کاتالوگ محلی 05:16
  • فیلترینگ با Polars و کاتالوگ محلی 05:54
  • معماری اسپارک و Iceberg 03:09
  • ایجاد کاتالوگ محلی با اسپارک 02:54
  • ایجاد جدول در کاتالوگ محلی با اسپارک 05:20
  • نصب PySpark روی سیستم محلی 01:37
  • ایجاد کاتالوگ محلی روی PyIceberg با PySpark 02:54
  • ایجاد جدول با استفاده از کوئری در PySpark 05:20
  • ایجاد جدول با استفاده از کد با PySpark 06:06
  • انتخاب رکوردها از کاتالوگ محلی با PySpark 03:06
  • توابع تجمیع در PySpark 05:29
  • فیلترها در کاتالوگ با PySpark 04:30
  • مقدمه DuckDB 06:41
  • ویژگی‌های کلیدی DuckDB 09:09
  • خواندن جدول DuckDB با استفاده از کاتالوگ 04:36
  • اعمال فیلترهای DuckDB روی جداول کاتالوگ 04:50
  • کاتالوگ PyIceberg با PostgreSQL 08:29
  • جداول متادیتای کاتالوگ Postgres 01:38
  • ایجاد کاربر در AWS 06:02
  • PyIceberg با کاتالوگ S3 08:37
  • PyIceberg با اسپارک و کاتالوگ S3 09:18
  • PyIceberg با اسپارک و کاتالوگ Glue 05:11
  • PyIceberg با DuckDB و کاتالوگ S3 05:10
  • عملیات‌های درج و بروزرسانی روی Iceberg 12:23
  • حذف رکوردها در Iceberg 07:09
  • Time Travel با PySpark و PyIceberg 06:37
  • اسکیما و تکامل در Iceberg 10:28
  • ویژگی‌های جدول فشرده‌سازی در Iceberg 05:25
  • پارتیشن‌بندی بدون ستون‌های پارتیشن 07:13
  • پارتیشن پنهان با استفاده از Iceberg 06:59
  • مقدمه‌ کاتالوگ Nessie 06:29
  • نصب Nessie 03:46
  • مثال اولین کاتالوگ Nessie 10:43
  • فرمان‌های Nessie 11:11
  • بازی کردن با برنچ‌ها در Nessie 09:09
  • ایجاد و حذف برنچ‌ها در Nessie 07:48
  • Iceberg در مقابل دریاچه دلتا در مقابل Apache Hudi 09:07
  • ارتقای نسخه DuckDB: 1.3 06:26
  • اتصال Ducklake به AWS S3 09:54
  • متادیتا در Duck-lake 09:22
  • ردیابی تغییرات اسنپ‌شات متادیتا در Duck-lake 07:41
  • خواندن فایل Parquet از S3 در Duck-lake 06:49
  • ویژگی Time Travel در Duck-lake 06:13
  • ردیابی Time Travel با استفاده از زمان در Duck-lake 09:14
  • تراکنش‌های ACID چندجدولی در Duck-lake 06:42

2,751,500 550,300 تومان

مشخصات آموزش

آموزش Apache Iceberg - راهنمای مبتدیان

  • تاریخ به روز رسانی: 1404/06/21
  • سطح دوره:همه سطوح
  • تعداد درس:62
  • مدت زمان :06:58:17
  • حجم :2.21GB
  • زبان:دوبله زبان فارسی
  • دوره آموزشی:AI Academy

آموزش های مرتبط

The Great Courses
1,889,000 377,800 تومان
  • زمان: 04:47:39
  • تعداد درس: 30
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
9,269,000 1,853,800 تومان
  • زمان: 23:28:00
  • تعداد درس: 170
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
7,379,500 1,475,900 تومان
  • زمان: 18:41:14
  • تعداد درس: 133
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
10,256,500 2,051,300 تومان
  • زمان: 25:58:16
  • تعداد درس: 140
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
490,000 98,000 تومان
  • زمان: 00:21:05
  • تعداد درس: 4
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
3,120,500 624,100 تومان
  • زمان: 07:54:58
  • تعداد درس: 51
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,185,000 237,000 تومان
  • زمان: 03:00:50
  • تعداد درس: 57
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
6,129,000 1,225,800 تومان
  • زمان: 15:31:30
  • تعداد درس: 18
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
4,878,000 975,600 تومان
  • زمان: 12:21:18
  • تعداد درس: 97
  • سطح دوره:
  • زبان: دوبله فارسی

آیا سوالی دارید؟

ما به شما کمک خواهیم کرد تا شغل و رشد خود را افزایش دهید.
امروز با ما تماس بگیرید