دوره آموزشی
دوبله زبان فارسی
آموزش Azure DataBricks - مهندسی داده با پروژههای بلادرنگ
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- معماری مدالیون، طراحی مدلسازی داده ابعادی، طراحی دریاچه دلتا، معماری Spark Core، راهاندازی کاتالوگ یونیتی و راهاندازی خوشه اسپارک
- Reader و Writer دیتافریم در PySpark، توابع تبدیل، توابع اکشن، توابع تاریخ و زمان، توابع تجمیع، جوینهای دیتافریم و داده پیچیده
- جداول خارجی اسپارک اس کیوال، جداول مدیریتشده، جداول دریاچه دلتا، ایجاد جدول به عنوان اسکریپت (CTAS)، Viewهای موقت، جوینهای جدول و توابع تبدیل داده
- چهار پایپلاین هضم قابل استفاده مجدد برای هضم داده منبع از سرویس وب (HTTP)، جداول پایگاه داده، سیستمهای منبع API، بارگذاری افزایشی و زمانبندی Job
- هفت پایپلاین تبدیل داده برای پردازش داده منبع در لایههای نقرهای و طلایی و ساخت پایگاه داده گزارشدهی و دریاچه داده با ثبت تغییرات داده
- پیکربندی Reader و Writer استریمینگ اسپارک برای پردازش داده استریمینگ بلادرنگ، راهاندازی CHECKPOINTLOCATION برای بارگذاری افزایشی خودکار در داده استریمینگ
- جداول لایو دلتا - Materialised Viewها، راهاندازی جداول استریمینگ، پیکربندی پایپلاین جدول لایو دلتا، بررسیهای کیفیت داده، AUTOLOADER و APPLY CHANGES
- راهاندازی نظارت و لاگ کردن برای نظارت بر اجرای Jobها تولید، راهاندازی هشدارها برای شکست Job و لاگ کردن توسعه یافته از اجرای Jobها و متریکهای سرویس
- تنظیمات امنیت در آژور با Microsoft Entra ID، کنترل دسترسی مبتنی بر نقش (RBAC) در IAM و تنظیمات ادمین فضای کار Databricks
- پیکربندی مخزن گیت هاب، فولدرهای مخازن گیت در فضای کار Databricks، روشهای کار با برنچهای گیت، ادغام کد و درخواستهای PULL
- راهاندازی محیط تولید، پایپلاینهای CI و CD برای اتوماسیون استقرار کد با GitHub Actions
پیشنیازهای دوره
بدون پیشنیاز - این دوره شامل تمام مهارتهای اولیه پایتون و اس کیوال لازم برای توسعه کد است.
توضیحات دوره
با تکمیل این دوره شما به مسئولیتها و نقشهای مهندس داده زیر برای پروژه بلادرنگ مجهز خواهید شد:
- طراحی و توسعه نوتبوکهای Databricks (PySpark) برای هضم داده از سرویسهای وب (HTTP)
- طراحی و توسعه نوتبوکهای Databricks (PySpark) برای هضم داده از پایگاه دادههای اس کیوال
- طراحی و توسعه نوتبوکهای Databricks (PySpark) برای هضم داده از سیستمهای منبع API
- طراحی و توسعه جداول خارجی و مدیریتشده اسپارک اس کیوال
- توسعه نوتبوکهای قابل استفاده مجدد اسپارک اس کیوال Databricks برای ایجاد جداول دریاچه دلتا
- توسعه کد اس کیوال Databricks برای پر کردن جداول بعد گزارشدهی
- توسعه کد اس کیوال Databricks برای پر کردن جدول Fact گزارشدهی
- طراحی و توسعه نوتبوکهای Databricks (PySpark) برای پردازش و مسطحسازی داده نیمهساختاریافته JSON
- طراحی و توسعه نوتبوکهای Databricks (PySpark) برای یکپارچهسازی داده و بارگذاری در لایه طلایی دریاچه داده
- طراحی و توسعه نوتبوکهای Databricks (PySpark) برای پردازش داده نیمهساختاریافته JSON در لایه نقرهای دریاچه داده
- طراحی و توسعه نوتبوکهای Databricks (SQL) برای یکپارچهسازی داده و بارگذاری در لایه طلایی دریاچه داده
- طراحی و پیکربندی کاتالوگ یونیتی برای کنترل دسترسی بهتر و اتصال به فروشگاههای داده خارجی
- توسعه Jobهای Databricks برای زمانبندی هضم داده و نوتبوکهای تبدیل
- طراحی و پیکربندی جداول لایو دلتا در تمام لایهها برای یکپارچگی بینقص داده
- راهاندازی Azure Monitor و Log Analytics برای نظارت خودکار بر اجرای Jobها و ذخیره جزئیات لاگ توسعه یافته
- راهاندازی Azure Key Vault و پیکربندی اسکوپهای مخفی پشتیبانیشده توسط Key Vault در فضای کار Databricks
- پیکربندی مخزن گیت هاب و ایجاد فولدرهای مخزن گیت در فضای کار Databricks
- طراحی و پیکربندی پایپلاینهای CI و CD برای انتشار کد در محیطهای مختلف
این دوره برای چه کسانی مناسب است؟
هر کسی که به یادگیری و درخواست برای مشاغل مهندسی داده علاقهمند است.
آموزش Azure DataBricks - مهندسی داده با پروژههای بلادرنگ
-
مقدمه 07:22
-
آشنایی با تحلیل داده 05:46
-
مهندسی داده - آشنایی با نقش شغلی 03:11
-
طراحی معماری پروژه - تعریف ورودیها و خروجیها 03:30
-
طراحی معماری پروژه - طراحی Datalakehouse با معماری مدالیون 07:50
-
اصول ابر 03:52
-
راهاندازی حساب رایگان آژور 07:38
-
بررسی پورتال آژور 07:30
-
راهاندازی Azure Databricks 03:36
-
راهاندازی حساب ذخیرهسازی دریاچه داده آژور 05:43
-
حساب ذخیرهسازی دریاچه داده آژور - راهاندازی کانتینرها 03:53
-
معماری آپاچی اسپارک 04:09
-
بررسی فضای کار Databricks 05:29
-
بررسی نوتبوکها 08:02
-
پیکربندی خوشه اسپارک 06:52
-
آشنایی با PySpark - خواندن داده منبع وب به عنوان دیتافریم 08:45
-
آشنایی با PySpark - نوشتن داده منبع وب در دریاچه داده 08:44
-
Reader و Writer در PySpark - گزینههای پیکربندی اضافی 14:21
-
بررسی تبدیلات دیتافریم در PySpark 05:32
-
توابع تبدیل دیتافریم در PySpark 08:08
-
توابع اکشن دیتافریم در PySpark 02:40
-
تبدیلات و اکشنهای اضافی دیتافریم در PySpark 07:11
-
توابع تجمیع دیتافریم در PySpark 06:17
-
مدیریت مقادیر تاریخ و زمان در دیتافریم PySpark 12:57
-
ابزارهای Databricks - بررسی dbutils 04:23
-
اسپارک اس کیوال - مقدمه 04:27
-
تبدیلات دیتافریمهای اسپارک به جداول اس کیوال و برعکس 05:45
-
اسپارک اس کیوال - ایجاد و پردازش جداول مدیریتشده 12:15
-
ایجاد و پردازش جداول خارجی اسپارک اس کیوال 09:29
-
اسپارک اس کیوال - توابع تبدیل داده 11:03
-
اسپارک اس کیوال - توابع مدیریت تاریخ و زمان 07:53
-
بررسی کاتالوگ یونیتی 09:13
-
بررسی پیکربندی کاتالوگ پیشفرض یونیتی 08:46
-
پیکربندی کاتالوگ یونیتی خاص پروژه 01:23
-
گام 1 - ایجاد کانکتور دسترسی جدید Databricks 01:38
-
گام 2 - راهاندازی دسترسی کانکتور دسترسی Databricks در حساب ذخیرهسازی دریاچه داده 02:24
-
گام 3 - رجیستر کانکتور دسترسی Databricks در کاتالوگ فضای کار 03:06
-
گام 4 - لینکدهی (Mount) مسیرهای کانتینرهای ذخیرهسازی دریاچه داده 06:31
-
گام 5 - پیکربندی مکان ذخیرهسازی برای اشیاء کاتالوگ یونیتی 03:06
-
گام 6 - ایجاد کاتالوگ یونیتی خاص پروژه 01:24
-
بررسی هضم داده منبع وب HTTP 06:09
-
ماژولار کردن کد 04:55
-
خواندن داده منبع وب و هضم در لایه برنز 08:26
-
پیکربندی پارامترهای نوتبوک Databricks 11:56
-
بررسی بارگذاری افزایشی 07:14
-
پیادهسازی بارگذاری افزایشی - ذخیره تاریخهای فایل منبع پردازش شده 08:20
-
پیادهسازی بارگذاری افزایشی - اتوماسیون تاریخ فایل منبع بعدی برای پردازش شدن 08:25
-
ریفکتور نوتبوک هضم 06:42
-
اشکالزدایی کد و فیکس کردن خطاها 09:34
-
بررسی گردش کارها و Jobهای Databricks 04:03
-
راهاندازی خوشه Job برای اجرای Job در Databricks 03:28
-
زمانبندی نوتبوک هضم قیمتگذاری روزانه 03:31
-
پیکربندی جدول خارجی برای داده قیمتگذاری روزانه در لایه برنز 07:54
-
بررسی هضم داده منبع جداول پایگاه داده 04:10
-
پیکربندی Reader پایگاه داده PySpark 03:56
-
ماژولار کردن کد 03:17
-
پیکربندی Writer پایگاه داده PySpark 08:00
-
هضم داده منبع پایگاه داده - پیکربندی Job 09:49
-
بررسی پردازش فایلهای پارکت و جدول دلتا 04:28
-
تبدیل لایه نقرهای - خواندن جدول منبع اسپارک اس کیوال 07:48
-
ایجاد جدول دریاچه دلتا 07:42
-
تبدیلات لایه نقرهای و بارگذاری جدول دلتا 07:23
-
بررسی ثبت تغییرات داده (CDC) 03:55
-
ثبت تغییرات داده (CDC) - ثبت آخرین مقدار تاریخ و زمان پردازش شده 10:04
-
ثبت تغییرات داده - شناسایی رکوردهای جدید با آخرین مقدار تاریخ و زمان پردازش شده 08:38
-
ریفکتور نوتبوک تبدیل لایه نقرهای 04:22
-
تبدیل لایه نقرهای - زمانبندی Job 03:30
-
بررسی مدلسازی داده ابعادی 04:02
-
مدلسازی داده ابعادی - بررسی داده منبع 02:04
-
مدلسازی داده ابعادی - شناسایی ستونهای بعد و Fact 03:30
-
مدلسازی داده ابعادی - طراحی جداول بعد 06:10
-
مدلسازی داده ابعادی - طراحی جداول Fact 02:38
-
مدلسازی داده ابعادی - مدل داده منطقی در مقابل فیزیکی 06:45
-
مدلسازی داده ابعادی - ایجاد جداول گزارشدهی فیزیکی 03:09
-
بررسی بارگذاری جداول Fact و بعد گزارشدهی 03:44
-
بارگذاری جدول بعد - انتخاب رکوردهای منحصر به فرد 10:48
-
بارگذاری جدول بعد - تولید کلیدهای جانشین 05:48
-
بارگذاری جدول بعد - ثبت تغییرات داده (CDC) 13:13
-
بارگذاری جدول بعد - بارگذاری جدول REPORTING_DIM_STATE_GOLD 08:25
-
بارگذاری جداول بعد - پر کردن تمام جداول بعد در لایه طلایی 08:44
-
پردازش جدول بعد تاریخ 12:12
-
بارگذاری جدول Fact REPORTING_FACT_DAILY_PRICING_GOLD 12:05
-
زمانبندی بارگذاری جداول Fact و بعد گزارشدهی 06:30
-
تولید داده منبع استریمینگ 05:50
-
بررسی استریمینگ ساختاریافته اسپارک 07:09
-
پیکربندی Reader و Writer استریمینگ ساختاریافته اسپارک 16:06
-
جداول لایو دلتا 06:39
-
جدول لایو دلتا - ایجاد Materialized View 08:12
-
جداول لایو دلتا - پیکربندی پایپلاین جداول لایو دلتا 08:51
-
جداول لایو دلتا - ایجاد جدول منبع استریمینگ و پیکربندی AUTO LOADER 08:13
-
جداول لایو دلتا - تست AUTO LOADER 03:21
-
جدول لایو دلتا - ایجاد از جدول لایو دلتا موجود 06:49
-
جداول لایو دلتا - فعالسازی بررسیهای کیفیت داده 08:42
-
جداول لایو دلتا - ثبت تغییرات داده (CDC) خودکار با Apply Changes API 08:40
-
طراحی دریاچه داده 04:15
-
بارگذاری داده منبع GeoLocation API 06:46
-
بارگذاری داده GeoLocation API - انجام درخواست API برای همه بازارها 12:01
-
بارگذاری داده GeoLocation API - جمعآوری داده پاسخ API برای همه بازارها 08:27
-
اشکالزدایی خطا و فیکس کردن خطا 15:00
-
بررسی تبدیل داده GeoLocation 04:06
-
تبدیل داده GeoLocation - خواندن داده JSON پیچیده 08:35
-
تبدیل داده GeoLocation - تبدیل مقادیر آرایه به ردیف با EXPLODE 08:35
-
تبدیل داده GeoLocation - یکپارچهسازی داده انفجاری با جوینهای دیتافریم 11:26
-
تبدیل داده GeoLocation - پاکسازی و آمادهسازی برای انتشار لایه طلایی 05:07
-
بررسی هضم داده منبع Weather Data API 06:36
-
هضم داده Weather Data API - انجام درخواست API برای همه بازارها 05:52
-
هضم داده Weather Data API - هضم داده پاسخ API برای همه بازار 06:32
-
بررسی تکلیف پروژه واقعی 06:17
-
نرمافزار مدیریت پروژه چابک بلادرنگ - بررسی کانفلوئنس و جیرا 03:24
-
پشتیبانی اضافی برای تکمیل تکلیف 03:24
-
بررسی تکلیف پروژه بلادرنگ 05:35
-
بررسی نظارت و لاگ کردن 02:44
-
دلیل پیکربندی نظارت در پروژههای بلادرنگ 04:32
-
دلیل پیکربندی لاگ کردن توسعه یافته در پروژه بلادرنگ 04:56
-
سناریوی شکست Job تولید بلادرنگ و فیکس کردن آن 05:24
-
نوتیفیکیشنهای Job در Databricks برای راهاندازی هشدار ایمیل خودکار برا شکست Jobها 02:01
-
Azure Monitor - راهاندازی متریکها و هشدارها 06:44
-
Azure Log Analytics - فعالسازی لاگ کردن توسعه یافته و کوئری کردن جداول گزارش 05:30
-
بررسی تنظیمات امنیت 05:12
-
کنترل دسترسی IAM آژور - پیکربندی کنترل دسترسی مبتنی بر نقش (RBAC) 04:45
-
تنظیمات امنیت ادمین فضای کار Databricks 08:18
-
Azure Key Vault - راهاندازی منابع 04:14
-
Azure Key Vault - ذخیره کردن Secretها 03:05
-
راهاندازی اسکوپ امنیت Key Vault در Databricks و استفاده از Secretها در نوتبوک 05:17
-
بررسی مخزن گیت 05:43
-
راهاندازی حساب و مخزن گیت هاب 03:21
-
یکپارچهسازی مخزن گیت هاب و راهاندازی فولدرهای گیت در Databricks 06:21
-
فولدرهای گیت - کار با برنچها 07:14
-
فولدرهای گیت - کامیت کردن و ادغام کد (درخواست PULL) 03:53
-
فولدرهای گیت - کار مشترک با چندین توسعهدهنده 12:08
-
بررسی فرآیند CI و CD 05:58
-
راهاندازی محیط تولید 02:53
-
پیکربندی پایپلاین CI و CD با GitHub Actions 02:20
-
بررسی پایپلاین CI و CD کد 10:02
-
تست پایپلاین CI و CD برای استقرار خودکار کد 05:16
مشخصات آموزش
آموزش Azure DataBricks - مهندسی داده با پروژههای بلادرنگ
- تاریخ به روز رسانی: 1404/06/21
- سطح دوره:همه سطوح
- تعداد درس:135
- مدت زمان :14:41:57
- حجم :6.69GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy