مهندسی داده با Spark و Databricks و Delta Lake و Lakehouse

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

کسب مهارت‌های لازم برای ورود به موقعیت‌های شغلی مهندسی داده
دستیابی به درک عملی از مفاهیم Data Lakehouse از طریق تجربه‌های کاربردی
یادگیری کار با جداول Delta، شامل دسترسی به تاریخچه نسخه‌ها، بازیابی داده و استفاده از قابلیت Time Travel
بهینه‌سازی جداول Delta با تکنیک‌هایی مانند Caching، Partitioning و Z-Ordering برای تحلیل سریع‌تر داده‌ها
کسب دانش عملی در ساخت پایپ‌لاین داده با استفاده از Apache Spark بر روی پلتفرم Databricks
انجام تحلیل داده در حساب کاربری Databricks روی پلتفرم AWS

پیش‌نیازهای دوره

درک اولیه با مفاهیم پایگاه داده و کوئری‌های SQL

توضیحات دوره

مهندسی داده یکی از کامپوننت های حیاتی کسب‌وکارهای مدرن و داده‌محور است. توانایی پردازش، مدیریت و تحلیل مجموعه‌داده‌های بزرگ، یک نیاز اساسی برای سازمان‌هایی است که می‌خواهند در بازار رقابتی باقی بمانند. در این دوره، شما یاد می‌گیرید چگونه یک پایپ‌لاین داده را با استفاده از Apache Spark بر روی معماری Lakehouse پلتفرم Databricks بسازید. این دوره به شما تجربه عملی کار با Spark و مفاهیم Lakehouse را می‌دهد و شما را برای موفقیت در نقش یک مهندس داده در محیط‌های واقعی آماده می‌کند.

در طول این دوره، شما موارد زیر را خواهید آموخت:

انجام تحلیل داده با استفاده از Python و Scala به همراه Spark
استفاده از Spark SQL و Databricks SQL برای تحلیل داده.
توسعه یک پایپ‌لاین داده با Apache Spark
کسب مهارت در استفاده از نسخه Community پلتفرم Databricks
مدیریت جداول Delta، شامل دسترسی به تاریخچه نسخه‌ها، بازیابی داده و استفاده از قابلیت Time Travel
بهینه‌سازی عملکرد کوئری‌ها با استفاده از Delta Cache.
کار با جداول Delta و سیستم فایل Databricks (DBFS)
کسب بینش عمیق از سناریوهای واقعی با راهنمایی اساتید باتجربه

ساختار دوره:

دوره با آشنایی شما با نسخه Community پلتفرم Databricks و ساخت یک پایپ‌لاین ساده با Spark آغاز می‌شود.
پس از کسب تسلط به پلتفرم، به سراغ مباحث پیچیده‌تر خواهید رفت.
تحلیل داده با Spark و با استفاده از زبان‌های Python و Scala را یاد می‌گیرید که شامل مباحثی چون transformations و actions و joins و Spark SQL و DataFrame APIs می‌شود.
دانش و مهارت‌های لازم برای کار با جداول Delta، از جمله دسترسی به تاریخچه نسخه‌ها، بازیابی داده‌ها و استفاده از قابلیت Time Travel با کمک Spark و Databricks SQL را کسب می‌کنید.
چگونگی استفاده از Delta Cache برای بهینه‌سازی عملکرد کوئری‌ها را درک خواهید کرد.

سرفصل‌های اختیاری در زمینه یکپارچه‌سازی با AWS:

'راه‌اندازی حساب Databricks بر روی AWS' و 'اجرای Notebookها در حساب Databricks روی AWS'.
ساخت یک پایپ‌لاین ETL با استفاده از Delta Live Tables.
این بخش‌ها فرصت‌های بیشتری برای کار با Databricks در اکوسیستم AWS فراهم می‌کنند.

این دوره برای مبتدیان حوزه مهندسی داده طراحی شده و نیازی به دانش قبلی Python و Scala ندارد. با این حال، آشنایی با پایگاه‌های داده و SQL برای موفقیت در این دوره ضروری است. پس از اتمام دوره، شما مهارت و دانش لازم برای موفقیت در یک موقعیت شغلی واقعی به عنوان مهندس داده را خواهید داشت.

در سراسر دوره، شما با مثال‌های عملی و سناریوهای واقعی کار خواهید کرد تا مفاهیم آموخته‌شده را به کار ببرید. در پایان، شما تجربه عملی و مهارت‌های مورد نیاز برای درک مفاهیم Spark و Lakehouse را کسب کرده و قادر خواهید بود یک پایپ‌لاین داده مقیاس‌پذیر و قابل‌اعتماد را با استفاده از Spark بر روی معماری Lakehouse پلتفرم Databricks بسازید.

این دوره برای چه کسانی مناسب است؟

افراد مبتدی در حوزه مهندسی داده

مهندسی داده با Spark و Databricks و Delta Lake و Lakehouse

فصل 1: مقدمه و ساخت یک پایپ‌لاین ساده

مقدمه 02:06
مهندسی داده با Spark 03:52
Databricks چیست؟ 02:07
ایجاد حساب کاربری Databricks Community Edition 02:50
ساخت یک پایپ‌لاین داده اولیه 00:32
خواندن داده از DBFS و جداول Delta 10:58
نوشتن داده در DBFS و جداول Delta 07:56
اکسپورت و ایمپورت Notebooks 01:20
بازبینی پایپ‌لاین داده اولیه 00:51

فصل 2: مهندسی داده با Apache Spark

عملیات و تبدیلات بیشتر با PySpark 09:09
انجام تبدیلات در Scala 05:45
دوره فشرده Python و Scala 06:27
توابع تعریف‌شده توسط کاربر (UDF) در Spark 14:24
ادغام داده‌ها با DataFrame API و Spark SQL 14:57
عملیات Join بیشتر با Spark 04:48
خلاصه بخش 01:26

فصل 3: بررسی عمیق Data Lakehouse، Delta Lake و جداول Delta

آشنایی با انبار داده، دریاچه داده و Lakehouse 07:31
معماری Databricks Lakehouse و Delta Lake 04:38
جداول Delta 01:32
ذخیره داده در جدول Delta و Databricks SQL و قابلیت Time Travel 12:35
مقایسه Databricks SQL و Spark SQL 05:50
کشینگ در جداول Delta 10:43
پارتیشن‌بندی در جداول Delta 05:31
تکنیک Z-Ordering در جداول Delta 05:07

فصل 4: آزمایشگاه‌های عملی Databricks روی AWS

ایجاد حساب کاربری AWS 05:16
راه‌اندازی حساب Databricks روی AWS 08:48
اجرای Notebookها در حساب Databricks روی AWS 12:31
ساخت پایپ‌لاین ETL با Delta Live Tables 14:19

فصل 5: بخش تکمیلی - آزمایشگاه‌های مهندسی داده AWS

مدیریت هویت و دسترسی (IAM) در AWS 10:45
آشنایی با سرویس AWS Glue 02:12
آزمایشگاه: ایجاد کاتالوگ داده در Glue و مشاهده داده‌ها در Athena 07:54
آزمایشگاه: اجرای یک فرآیند ETL با استفاده از Glue 05:13
آشنایی با سرویس Amazon EventBridge 04:24
آزمایشگاه: فعال‌سازی اعلان SNS برای رویداد آپلود در S3 با EventBridge 04:31
آشنایی با سرویس AWS Step Functions 02:44
آزمایشگاه: هماهنگ‌سازی توابع Lambda با State Machine در Step Functions 05:12
آزمایشگاه: هماهنگ‌سازی گردش کار ETL با Glue، Lambda، EventBridge و Step Functions 08:04
آشنایی با Kinesis Data Stream 08:12
آزمایشگاه: ذخیره و بازیابی داده از Kinesis Data Stream با AWS CLI 08:30
آزمایشگاه: تولیدکننده و مصرف‌کننده Kinesis Data Stream با Python Boto3 06:08
آزمایشگاه: نوشتن داده‌های شبیه‌سازی‌شده آب‌وهوا از Kinesis Stream به S3 با AWS Lambda 06:25
شروع کار با AWS EC2: اصول Amazon EMR 07:21
آزمایشگاه: اجرای فرآیندهای تبدیلات Spark با Amazon EMR روی EC2 08:52
آشنایی با Amazon Redshift 01:32
آزمایشگاه: ایجاد انبار داده روی داده‌های S3 با استفاده از Amazon Redshift 13:21
AWS Glue DataBrew: تبدیل داده بدون نیاز به کدنویسی 08:14