آموزش Azure DataBricks - مهندسی داده با پروژه‌های بلادرنگ

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

معماری مدالیون، طراحی مدلسازی داده ابعادی، طراحی دریاچه دلتا، معماری Spark Core، راه‌اندازی کاتالوگ یونیتی و راه‌اندازی خوشه اسپارک
Reader و Writer دیتافریم در PySpark، توابع تبدیل، توابع اکشن، توابع تاریخ و زمان، توابع تجمیع، جوین‌های دیتافریم و داده پیچیده
جداول خارجی اسپارک اس کیوال، جداول مدیریت‌شده، جداول دریاچه دلتا، ایجاد جدول به عنوان اسکریپت (CTAS)، Viewهای موقت، جوین‌های جدول و توابع تبدیل داده
چهار پایپ‌لاین هضم قابل استفاده مجدد برای هضم داده منبع از سرویس وب (HTTP)، جداول پایگاه داده، سیستم‌های منبع API، بارگذاری افزایشی و زمان‌بندی Job
هفت پایپ‌لاین تبدیل داده برای پردازش داده منبع در لایه‌های نقره‌ای و طلایی و ساخت پایگاه داده گزارش‌دهی و دریاچه داده با ثبت تغییرات داده
پیکربندی Reader و Writer استریمینگ اسپارک برای پردازش داده استریمینگ بلادرنگ، راه‌اندازی CHECKPOINTLOCATION برای بارگذاری افزایشی خودکار در داده استریمینگ
جداول لایو دلتا - Materialised Viewها، راه‌اندازی جداول استریمینگ، پیکربندی پایپ‌لاین جدول لایو دلتا، بررسی‌های کیفیت داده، AUTOLOADER و APPLY CHANGES
راه‌اندازی نظارت و لاگ کردن برای نظارت بر اجرای Jobها تولید، راه‌اندازی هشدارها برای شکست Job و لاگ کردن توسعه یافته از اجرای Jobها و متریک‌های سرویس
تنظیمات امنیت در آژور با Microsoft Entra ID، کنترل دسترسی مبتنی بر نقش (RBAC) در IAM و تنظیمات ادمین فضای کار Databricks
پیکربندی مخزن گیت هاب، فولدرهای مخازن گیت در فضای کار Databricks، روش‌های کار با برنچ‌های گیت، ادغام کد و درخواست‌های PULL
راه‌اندازی محیط تولید، پایپ‌لاین‌های CI و CD برای اتوماسیون استقرار کد با GitHub Actions

پیش‌نیازهای دوره

بدون پیش‌نیاز - این دوره شامل تمام مهارت‌های اولیه پایتون و اس کیوال لازم برای توسعه کد است.

توضیحات دوره

با تکمیل این دوره شما به مسئولیت‌ها و نقش‌های مهندس داده زیر برای پروژه بلادرنگ مجهز خواهید شد:

طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای هضم داده از سرویس‌های وب (HTTP)
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای هضم داده از پایگاه داده‌های اس کیوال
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای هضم داده از سیستم‌های منبع API
طراحی و توسعه جداول خارجی و مدیریت‌شده اسپارک اس کیوال
توسعه نوت‌بوک‌های قابل استفاده مجدد اسپارک اس کیوال Databricks برای ایجاد جداول دریاچه دلتا
توسعه کد اس کیوال Databricks برای پر کردن جداول بعد گزارش‌دهی
توسعه کد اس کیوال Databricks برای پر کردن جدول Fact گزارش‌دهی
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای پردازش و مسطح‌سازی داده نیمه‌ساختاریافته JSON
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای یکپارچه‌سازی داده و بارگذاری در لایه طلایی دریاچه داده
طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای پردازش داده نیمه‌ساختاریافته JSON در لایه نقره‌ای دریاچه داده
طراحی و توسعه نوت‌بوک‌های Databricks (SQL) برای یکپارچه‌سازی داده و بارگذاری در لایه طلایی دریاچه داده
طراحی و پیکربندی کاتالوگ یونیتی برای کنترل دسترسی بهتر و اتصال به فروشگاه‌های داده خارجی
توسعه Jobهای Databricks برای زمان‌بندی هضم داده و نوت‌بوک‌های تبدیل
طراحی و پیکربندی جداول لایو دلتا در تمام لایه‌ها برای یکپارچگی بی‌نقص داده
راه‌اندازی Azure Monitor و Log Analytics برای نظارت خودکار بر اجرای Jobها و ذخیره جزئیات لاگ توسعه یافته
راه‌اندازی Azure Key Vault و پیکربندی اسکوپ‌های مخفی پشتیبانی‌شده توسط Key Vault در فضای کار Databricks
پیکربندی مخزن گیت هاب و ایجاد فولدرهای مخزن گیت در فضای کار Databricks
طراحی و پیکربندی پایپ‌لاین‌های CI و CD برای انتشار کد در محیط‌های مختلف

این دوره برای چه کسانی مناسب است؟

هر کسی که به یادگیری و درخواست برای مشاغل مهندسی داده علاقه‌مند است.

آموزش Azure DataBricks - مهندسی داده با پروژه‌های بلادرنگ

فصل 1: مقدمه

مقدمه 07:22
آشنایی با تحلیل داده 05:46
مهندسی داده - آشنایی با نقش شغلی 03:11
طراحی معماری پروژه - تعریف ورودی‌ها و خروجی‌ها 03:30
طراحی معماری پروژه - طراحی Datalakehouse با معماری مدالیون 07:50
اصول ابر 03:52
راه‌اندازی حساب رایگان آژور 07:38

فصل 2: بررسی پورتال آژور و ایجاد منابع آژور

بررسی پورتال آژور 07:30
راه‌اندازی Azure Databricks 03:36
راه‌اندازی حساب ذخیره‌سازی دریاچه داده آژور 05:43
حساب ذخیره‌سازی دریاچه داده آژور - راه‌اندازی کانتینرها 03:53

فصل 3: آشنایی با PySpark

معماری آپاچی اسپارک 04:09
بررسی فضای کار Databricks 05:29
بررسی نوت‌بوک‌ها 08:02
پیکربندی خوشه اسپارک 06:52
آشنایی با PySpark - خواندن داده منبع وب به عنوان دیتافریم 08:45
آشنایی با PySpark - نوشتن داده منبع وب در دریاچه داده 08:44
Reader و Writer در PySpark - گزینه‌های پیکربندی اضافی 14:21
بررسی تبدیلات دیتافریم در PySpark 05:32
توابع تبدیل دیتافریم در PySpark 08:08
توابع اکشن دیتافریم در PySpark 02:40
تبدیلات و اکشن‌های اضافی دیتافریم در PySpark 07:11
توابع تجمیع دیتافریم در PySpark 06:17
مدیریت مقادیر تاریخ و زمان در دیتافریم PySpark 12:57
ابزارهای Databricks - بررسی dbutils 04:23

فصل 4: آشنایی با اسپارک اس کیوال

اسپارک اس کیوال - مقدمه 04:27
تبدیلات دیتافریم‌های اسپارک به جداول اس کیوال و برعکس 05:45
اسپارک اس کیوال - ایجاد و پردازش جداول مدیریت‌شده 12:15
ایجاد و پردازش جداول خارجی اسپارک اس کیوال 09:29
اسپارک اس کیوال - توابع تبدیل داده 11:03
اسپارک اس کیوال - توابع مدیریت تاریخ و زمان 07:53

فصل 5: پیکربندی کاتالوگ یونیتی

بررسی کاتالوگ یونیتی 09:13
بررسی پیکربندی کاتالوگ پیش‌فرض یونیتی 08:46
پیکربندی کاتالوگ یونیتی خاص پروژه 01:23
گام 1 - ایجاد کانکتور دسترسی جدید Databricks 01:38
گام 2 - راه‌اندازی دسترسی کانکتور دسترسی Databricks در حساب ذخیره‌سازی دریاچه داده 02:24
گام 3 - رجیستر کانکتور دسترسی Databricks در کاتالوگ فضای کار 03:06
گام 4 - لینک‌دهی (Mount) مسیرهای کانتینرهای ذخیره‌سازی دریاچه داده 06:31
گام 5 - پیکربندی مکان ذخیره‌سازی برای اشیاء کاتالوگ یونیتی 03:06
گام 6 - ایجاد کاتالوگ یونیتی خاص پروژه 01:24

فصل 6: هضم داده منبع از سرویس وب (HTTP) به لایه برنز با PySpark

بررسی هضم داده منبع وب HTTP 06:09
ماژولار کردن کد 04:55
خواندن داده منبع وب و هضم در لایه برنز 08:26
پیکربندی پارامترهای نوت‌بوک Databricks 11:56
بررسی بارگذاری افزایشی 07:14
پیاده‌سازی بارگذاری افزایشی - ذخیره تاریخ‌های فایل منبع پردازش شده 08:20
پیاده‌سازی بارگذاری افزایشی - اتوماسیون تاریخ فایل منبع بعدی برای پردازش شدن 08:25
ریفکتور نوت‌بوک هضم 06:42
اشکال‌زدایی کد و فیکس کردن خطاها 09:34
بررسی گردش کارها و Jobهای Databricks 04:03
راه‌اندازی خوشه Job برای اجرای Job در Databricks 03:28
زمان‌بندی نوت‌بوک هضم قیمت‌گذاری روزانه 03:31
پیکربندی جدول خارجی برای داده قیمت‌گذاری روزانه در لایه برنز 07:54

فصل 7: هضم داده منبع از جداول پایگاه داده با PySpark

بررسی هضم داده منبع جداول پایگاه داده 04:10
پیکربندی Reader پایگاه داده PySpark 03:56
ماژولار کردن کد 03:17
پیکربندی Writer پایگاه داده PySpark 08:00
هضم داده منبع پایگاه داده - پیکربندی Job 09:49

فصل 8: تبدیل لایه نقره‌ای - پیکربندی فایل‌های پارکت و جدول دلتا با اسپارک اس کیوال

بررسی پردازش فایل‌های پارکت و جدول دلتا 04:28
تبدیل لایه نقره‌ای - خواندن جدول منبع اسپارک اس کیوال 07:48
ایجاد جدول دریاچه دلتا 07:42
تبدیلات لایه نقره‌ای و بارگذاری جدول دلتا 07:23
بررسی ثبت تغییرات داده (CDC) 03:55
ثبت تغییرات داده (CDC) - ثبت آخرین مقدار تاریخ و زمان پردازش شده 10:04
ثبت تغییرات داده - شناسایی رکوردهای جدید با آخرین مقدار تاریخ و زمان پردازش شده 08:38
ریفکتور نوت‌بوک تبدیل لایه نقره‌ای 04:22
تبدیل لایه نقره‌ای - زمان‌بندی Job 03:30

فصل 9: مدل‌سازی داده ابعادی (اسکیمای ستاره‌ای) - طراحی پایگاه داده گزارش‌دهی

بررسی مدل‌سازی داده ابعادی 04:02
مدل‌سازی داده ابعادی - بررسی داده منبع 02:04
مدل‌سازی داده ابعادی - شناسایی ستون‌های بعد و Fact 03:30
مدل‌سازی داده ابعادی - طراحی جداول بعد 06:10
مدل‌سازی داده ابعادی - طراحی جداول Fact 02:38
مدل‌سازی داده ابعادی - مدل داده منطقی در مقابل فیزیکی 06:45
مدل‌سازی داده ابعادی - ایجاد جداول گزارش‌دهی فیزیکی 03:09

فصل 10: بارگذاری جداول Fact و بعد گزارش‌دهی با اسپارک اس کیوال

بررسی بارگذاری جداول Fact و بعد گزارش‌دهی 03:44
بارگذاری جدول بعد - انتخاب رکوردهای منحصر به فرد 10:48
بارگذاری جدول بعد - تولید کلیدهای جانشین 05:48
بارگذاری جدول بعد - ثبت تغییرات داده (CDC) 13:13
بارگذاری جدول بعد - بارگذاری جدول REPORTING_DIM_STATE_GOLD 08:25
بارگذاری جداول بعد - پر کردن تمام جداول بعد در لایه طلایی 08:44
پردازش جدول بعد تاریخ 12:12
بارگذاری جدول Fact REPORTING_FACT_DAILY_PRICING_GOLD 12:05
زمان‌بندی بارگذاری جداول Fact و بعد گزارش‌دهی 06:30

فصل 11: استریمینگ ساختاریافته اسپارک - پردازش داده بلادرنگ

تولید داده منبع استریمینگ 05:50
بررسی استریمینگ ساختاریافته اسپارک 07:09
پیکربندی Reader و Writer استریمینگ ساختاریافته اسپارک 16:06

فصل 12: آشنایی با جداول لایو دلتا

جداول لایو دلتا 06:39
جدول لایو دلتا - ایجاد Materialized View 08:12
جداول لایو دلتا - پیکربندی پایپ‌لاین جداول لایو دلتا 08:51
جداول لایو دلتا - ایجاد جدول منبع استریمینگ و پیکربندی AUTO LOADER 08:13
جداول لایو دلتا - تست AUTO LOADER 03:21
جدول لایو دلتا - ایجاد از جدول لایو دلتا موجود 06:49
جداول لایو دلتا - فعال‌سازی بررسی‌های کیفیت داده 08:42
جداول لایو دلتا - ثبت تغییرات داده (CDC) خودکار با Apply Changes API 08:40

فصل 13: بارگذاری لایه برنز دریاچه داده - هضم داده منبع GeoLocation API

طراحی دریاچه داده 04:15
بارگذاری داده منبع GeoLocation API 06:46
بارگذاری داده GeoLocation API - انجام درخواست API برای همه بازارها 12:01
بارگذاری داده GeoLocation API - جمع‌آوری داده پاسخ API برای همه بازارها 08:27
اشکال‌زدایی خطا و فیکس کردن خطا 15:00

فصل 14: تبدیلات لایه نقره‌ای دریاچه داده - تبدیل داده منبع GeoLocation API

بررسی تبدیل داده GeoLocation 04:06
تبدیل داده GeoLocation - خواندن داده JSON پیچیده 08:35
تبدیل داده GeoLocation - تبدیل مقادیر آرایه به ردیف با EXPLODE 08:35
تبدیل داده GeoLocation - یکپارچه‌سازی داده انفجاری با جوین‌های دیتافریم 11:26
تبدیل داده GeoLocation - پاکسازی و آماده‌سازی برای انتشار لایه طلایی 05:07

فصل 15: بارگذاری لایه برنز دریاچه داده - هضم داده منبع Weather Data API

بررسی هضم داده منبع Weather Data API 06:36
هضم داده Weather Data API - انجام درخواست API برای همه بازارها 05:52
هضم داده Weather Data API - هضم داده پاسخ API برای همه بازار 06:32

فصل 16: تبدیلات لایه نقره‌ای دریاچه داده - تبدیل داده آب و هوا (تکلیف)

بررسی تکلیف پروژه واقعی 06:17
نرم‌افزار مدیریت پروژه چابک بلادرنگ - بررسی کانفلوئنس و جیرا 03:24
پشتیبانی اضافی برای تکمیل تکلیف 03:24

فصل 17: بارگذاری لایه طلایی دریاچه داده - انتشار داده منبع هوش مصنوعی پیش‌بینی قیمت (تکلیف)

بررسی تکلیف پروژه بلادرنگ 05:35

فصل 18: نظارت و لاگ کردن - Azure Monitor ،Log Analytics و نوتیفیکیشن‌های Job

بررسی نظارت و لاگ کردن 02:44
دلیل پیکربندی نظارت در پروژه‌های بلادرنگ 04:32
دلیل پیکربندی لاگ کردن توسعه یافته در پروژه بلادرنگ 04:56
سناریوی شکست Job تولید بلادرنگ و فیکس کردن آن 05:24
نوتیفیکیشن‌های Job در Databricks برای راه‌اندازی هشدار ایمیل خودکار برا شکست Jobها 02:01
Azure Monitor - راه‌اندازی متریک‌ها و هشدارها 06:44
Azure Log Analytics - فعال‌سازی لاگ کردن توسعه یافته و کوئری کردن جداول گزارش‌ 05:30

فصل 19: تنظیمات امنیت - کنترل دسترسی IAM (RBAC) آژور و ادمین فضای کار Databricks

بررسی تنظیمات امنیت 05:12
کنترل دسترسی IAM آژور - پیکربندی کنترل دسترسی مبتنی بر نقش (RBAC) 04:45
تنظیمات امنیت ادمین فضای کار Databricks 08:18
Azure Key Vault - راه‌اندازی منابع 04:14
Azure Key Vault - ذخیره کردن Secretها 03:05
راه‌اندازی اسکوپ امنیت Key Vault در Databricks و استفاده از Secretها در نوت‌بوک 05:17