دوره آموزشی
آموزش های یودمی
دوبله زبان فارسی

آموزش Azure DataBricks - مهندسی داده با پروژه‌های بلادرنگ

آموزش Azure DataBricks - مهندسی داده با پروژه‌های بلادرنگ

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

  • معماری مدالیون، طراحی مدلسازی داده ابعادی، طراحی دریاچه دلتا، معماری Spark Core، راه‌اندازی کاتالوگ یونیتی و راه‌اندازی خوشه اسپارک
  • Reader و Writer دیتافریم در PySpark، توابع تبدیل، توابع اکشن، توابع تاریخ و زمان، توابع تجمیع، جوین‌های دیتافریم و داده پیچیده
  • جداول خارجی اسپارک اس کیوال، جداول مدیریت‌شده، جداول دریاچه دلتا، ایجاد جدول به عنوان اسکریپت (CTAS)، Viewهای موقت، جوین‌های جدول و توابع تبدیل داده
  • چهار پایپ‌لاین هضم قابل استفاده مجدد برای هضم داده منبع از سرویس وب (HTTP)، جداول پایگاه داده، سیستم‌های منبع API، بارگذاری افزایشی و زمان‌بندی Job
  • هفت پایپ‌لاین تبدیل داده برای پردازش داده منبع در لایه‌های نقره‌ای و طلایی و ساخت پایگاه داده گزارش‌دهی و دریاچه داده با ثبت تغییرات داده
  • پیکربندی Reader و Writer استریمینگ اسپارک برای پردازش داده استریمینگ بلادرنگ، راه‌اندازی CHECKPOINTLOCATION برای بارگذاری افزایشی خودکار در داده استریمینگ
  • جداول لایو دلتا - Materialised Viewها، راه‌اندازی جداول استریمینگ، پیکربندی پایپ‌لاین جدول لایو دلتا، بررسی‌های کیفیت داده، AUTOLOADER و APPLY CHANGES
  • راه‌اندازی نظارت و لاگ کردن برای نظارت بر اجرای Jobها تولید، راه‌اندازی هشدارها برای شکست Job و لاگ کردن توسعه یافته از اجرای Jobها و متریک‌های سرویس
  • تنظیمات امنیت در آژور با Microsoft Entra ID، کنترل دسترسی مبتنی بر نقش (RBAC) در IAM و تنظیمات ادمین فضای کار Databricks
  • پیکربندی مخزن گیت هاب، فولدرهای مخازن گیت در فضای کار Databricks، روش‌های کار با برنچ‌های گیت، ادغام کد و درخواست‌های PULL
  • راه‌اندازی محیط تولید، پایپ‌لاین‌های CI و CD برای اتوماسیون استقرار کد با GitHub Actions

پیش‌نیازهای دوره

  • بدون پیش‌نیاز - این دوره شامل تمام مهارت‌های اولیه پایتون و اس کیوال لازم برای توسعه کد است.

توضیحات دوره

با تکمیل این دوره شما به مسئولیت‌ها و نقش‌های مهندس داده زیر برای پروژه بلادرنگ مجهز خواهید شد:

  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای هضم داده از سرویس‌های وب (HTTP)
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای هضم داده از پایگاه داده‌های اس کیوال
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای هضم داده از سیستم‌های منبع API
  • طراحی و توسعه جداول خارجی و مدیریت‌شده اسپارک اس کیوال
  • توسعه نوت‌بوک‌های قابل استفاده مجدد اسپارک اس کیوال Databricks برای ایجاد جداول دریاچه دلتا
  • توسعه کد اس کیوال Databricks برای پر کردن جداول بعد گزارش‌دهی
  • توسعه کد اس کیوال Databricks برای پر کردن جدول Fact گزارش‌دهی
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای پردازش و مسطح‌سازی داده نیمه‌ساختاریافته JSON
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای یکپارچه‌سازی داده و بارگذاری در لایه طلایی دریاچه داده
  • طراحی و توسعه نوت‌بوک‌های Databricks (PySpark) برای پردازش داده نیمه‌ساختاریافته JSON در لایه نقره‌ای دریاچه داده
  • طراحی و توسعه نوت‌بوک‌های Databricks (SQL) برای یکپارچه‌سازی داده و بارگذاری در لایه طلایی دریاچه داده
  • طراحی و پیکربندی کاتالوگ یونیتی برای کنترل دسترسی بهتر و اتصال به فروشگاه‌های داده خارجی
  • توسعه Jobهای Databricks برای زمان‌بندی هضم داده و نوت‌بوک‌های تبدیل
  • طراحی و پیکربندی جداول لایو دلتا در تمام لایه‌ها برای یکپارچگی بی‌نقص داده
  • راه‌اندازی Azure Monitor و Log Analytics برای نظارت خودکار بر اجرای Jobها و ذخیره جزئیات لاگ توسعه یافته
  • راه‌اندازی Azure Key Vault و پیکربندی اسکوپ‌های مخفی پشتیبانی‌شده توسط Key Vault در فضای کار Databricks
  • پیکربندی مخزن گیت هاب و ایجاد فولدرهای مخزن گیت در فضای کار Databricks
  • طراحی و پیکربندی پایپ‌لاین‌های CI و CD برای انتشار کد در محیط‌های مختلف

این دوره برای چه کسانی مناسب است؟

  • هر کسی که به یادگیری و درخواست برای مشاغل مهندسی داده علاقه‌مند است.

آموزش Azure DataBricks - مهندسی داده با پروژه‌های بلادرنگ

  • مقدمه 07:22
  • آشنایی با تحلیل داده 05:46
  • مهندسی داده - آشنایی با نقش شغلی 03:11
  • طراحی معماری پروژه - تعریف ورودی‌ها و خروجی‌ها 03:30
  • طراحی معماری پروژه - طراحی Datalakehouse با معماری مدالیون 07:50
  • اصول ابر 03:52
  • راه‌اندازی حساب رایگان آژور 07:38
  • بررسی پورتال آژور 07:30
  • راه‌اندازی Azure Databricks 03:36
  • راه‌اندازی حساب ذخیره‌سازی دریاچه داده آژور 05:43
  • حساب ذخیره‌سازی دریاچه داده آژور - راه‌اندازی کانتینرها 03:53
  • معماری آپاچی اسپارک 04:09
  • بررسی فضای کار Databricks 05:29
  • بررسی نوت‌بوک‌ها 08:02
  • پیکربندی خوشه اسپارک 06:52
  • آشنایی با PySpark - خواندن داده منبع وب به عنوان دیتافریم 08:45
  • آشنایی با PySpark - نوشتن داده منبع وب در دریاچه داده 08:44
  • Reader و Writer در PySpark - گزینه‌های پیکربندی اضافی 14:21
  • بررسی تبدیلات دیتافریم در PySpark 05:32
  • توابع تبدیل دیتافریم در PySpark 08:08
  • توابع اکشن دیتافریم در PySpark 02:40
  • تبدیلات و اکشن‌های اضافی دیتافریم در PySpark 07:11
  • توابع تجمیع دیتافریم در PySpark 06:17
  • مدیریت مقادیر تاریخ و زمان در دیتافریم PySpark 12:57
  • ابزارهای Databricks - بررسی dbutils 04:23
  • اسپارک اس کیوال - مقدمه 04:27
  • تبدیلات دیتافریم‌های اسپارک به جداول اس کیوال و برعکس 05:45
  • اسپارک اس کیوال - ایجاد و پردازش جداول مدیریت‌شده 12:15
  • ایجاد و پردازش جداول خارجی اسپارک اس کیوال 09:29
  • اسپارک اس کیوال - توابع تبدیل داده 11:03
  • اسپارک اس کیوال - توابع مدیریت تاریخ و زمان 07:53
  • بررسی کاتالوگ یونیتی 09:13
  • بررسی پیکربندی کاتالوگ پیش‌فرض یونیتی 08:46
  • پیکربندی کاتالوگ یونیتی خاص پروژه 01:23
  • گام 1 - ایجاد کانکتور دسترسی جدید Databricks 01:38
  • گام 2 - راه‌اندازی دسترسی کانکتور دسترسی Databricks در حساب ذخیره‌سازی دریاچه داده 02:24
  • گام 3 - رجیستر کانکتور دسترسی Databricks در کاتالوگ فضای کار 03:06
  • گام 4 - لینک‌دهی (Mount) مسیرهای کانتینرهای ذخیره‌سازی دریاچه داده 06:31
  • گام 5 - پیکربندی مکان ذخیره‌سازی برای اشیاء کاتالوگ یونیتی 03:06
  • گام 6 - ایجاد کاتالوگ یونیتی خاص پروژه 01:24
  • بررسی هضم داده منبع وب HTTP 06:09
  • ماژولار کردن کد 04:55
  • خواندن داده منبع وب و هضم در لایه برنز 08:26
  • پیکربندی پارامترهای نوت‌بوک Databricks 11:56
  • بررسی بارگذاری افزایشی 07:14
  • پیاده‌سازی بارگذاری افزایشی - ذخیره تاریخ‌های فایل منبع پردازش شده 08:20
  • پیاده‌سازی بارگذاری افزایشی - اتوماسیون تاریخ فایل منبع بعدی برای پردازش شدن 08:25
  • ریفکتور نوت‌بوک هضم 06:42
  • اشکال‌زدایی کد و فیکس کردن خطاها 09:34
  • بررسی گردش کارها و Jobهای Databricks 04:03
  • راه‌اندازی خوشه Job برای اجرای Job در Databricks 03:28
  • زمان‌بندی نوت‌بوک هضم قیمت‌گذاری روزانه 03:31
  • پیکربندی جدول خارجی برای داده قیمت‌گذاری روزانه در لایه برنز 07:54
  • بررسی هضم داده منبع جداول پایگاه داده 04:10
  • پیکربندی Reader پایگاه داده PySpark 03:56
  • ماژولار کردن کد 03:17
  • پیکربندی Writer پایگاه داده PySpark 08:00
  • هضم داده منبع پایگاه داده - پیکربندی Job 09:49
  • بررسی پردازش فایل‌های پارکت و جدول دلتا 04:28
  • تبدیل لایه نقره‌ای - خواندن جدول منبع اسپارک اس کیوال 07:48
  • ایجاد جدول دریاچه دلتا 07:42
  • تبدیلات لایه نقره‌ای و بارگذاری جدول دلتا 07:23
  • بررسی ثبت تغییرات داده (CDC) 03:55
  • ثبت تغییرات داده (CDC) - ثبت آخرین مقدار تاریخ و زمان پردازش شده 10:04
  • ثبت تغییرات داده - شناسایی رکوردهای جدید با آخرین مقدار تاریخ و زمان پردازش شده 08:38
  • ریفکتور نوت‌بوک تبدیل لایه نقره‌ای 04:22
  • تبدیل لایه نقره‌ای - زمان‌بندی Job 03:30
  • بررسی مدل‌سازی داده ابعادی 04:02
  • مدل‌سازی داده ابعادی - بررسی داده منبع 02:04
  • مدل‌سازی داده ابعادی - شناسایی ستون‌های بعد و Fact 03:30
  • مدل‌سازی داده ابعادی - طراحی جداول بعد 06:10
  • مدل‌سازی داده ابعادی - طراحی جداول Fact 02:38
  • مدل‌سازی داده ابعادی - مدل داده منطقی در مقابل فیزیکی 06:45
  • مدل‌سازی داده ابعادی - ایجاد جداول گزارش‌دهی فیزیکی 03:09
  • بررسی بارگذاری جداول Fact و بعد گزارش‌دهی 03:44
  • بارگذاری جدول بعد - انتخاب رکوردهای منحصر به فرد 10:48
  • بارگذاری جدول بعد - تولید کلیدهای جانشین 05:48
  • بارگذاری جدول بعد - ثبت تغییرات داده (CDC) 13:13
  • بارگذاری جدول بعد - بارگذاری جدول REPORTING_DIM_STATE_GOLD 08:25
  • بارگذاری جداول بعد - پر کردن تمام جداول بعد در لایه طلایی 08:44
  • پردازش جدول بعد تاریخ 12:12
  • بارگذاری جدول Fact REPORTING_FACT_DAILY_PRICING_GOLD 12:05
  • زمان‌بندی بارگذاری جداول Fact و بعد گزارش‌دهی 06:30
  • تولید داده منبع استریمینگ 05:50
  • بررسی استریمینگ ساختاریافته اسپارک 07:09
  • پیکربندی Reader و Writer استریمینگ ساختاریافته اسپارک 16:06
  • جداول لایو دلتا 06:39
  • جدول لایو دلتا - ایجاد Materialized View 08:12
  • جداول لایو دلتا - پیکربندی پایپ‌لاین جداول لایو دلتا 08:51
  • جداول لایو دلتا - ایجاد جدول منبع استریمینگ و پیکربندی AUTO LOADER 08:13
  • جداول لایو دلتا - تست AUTO LOADER 03:21
  • جدول لایو دلتا - ایجاد از جدول لایو دلتا موجود 06:49
  • جداول لایو دلتا - فعال‌سازی بررسی‌های کیفیت داده 08:42
  • جداول لایو دلتا - ثبت تغییرات داده (CDC) خودکار با Apply Changes API 08:40
  • طراحی دریاچه داده 04:15
  • بارگذاری داده منبع GeoLocation API 06:46
  • بارگذاری داده GeoLocation API - انجام درخواست API برای همه بازارها 12:01
  • بارگذاری داده GeoLocation API - جمع‌آوری داده پاسخ API برای همه بازارها 08:27
  • اشکال‌زدایی خطا و فیکس کردن خطا 15:00
  • بررسی تبدیل داده GeoLocation 04:06
  • تبدیل داده GeoLocation - خواندن داده JSON پیچیده 08:35
  • تبدیل داده GeoLocation - تبدیل مقادیر آرایه به ردیف با EXPLODE 08:35
  • تبدیل داده GeoLocation - یکپارچه‌سازی داده انفجاری با جوین‌های دیتافریم 11:26
  • تبدیل داده GeoLocation - پاکسازی و آماده‌سازی برای انتشار لایه طلایی 05:07
  • بررسی هضم داده منبع Weather Data API 06:36
  • هضم داده Weather Data API - انجام درخواست API برای همه بازارها 05:52
  • هضم داده Weather Data API - هضم داده پاسخ API برای همه بازار 06:32
  • بررسی تکلیف پروژه واقعی 06:17
  • نرم‌افزار مدیریت پروژه چابک بلادرنگ - بررسی کانفلوئنس و جیرا 03:24
  • پشتیبانی اضافی برای تکمیل تکلیف 03:24
  • بررسی نظارت و لاگ کردن 02:44
  • دلیل پیکربندی نظارت در پروژه‌های بلادرنگ 04:32
  • دلیل پیکربندی لاگ کردن توسعه یافته در پروژه بلادرنگ 04:56
  • سناریوی شکست Job تولید بلادرنگ و فیکس کردن آن 05:24
  • نوتیفیکیشن‌های Job در Databricks برای راه‌اندازی هشدار ایمیل خودکار برا شکست Jobها 02:01
  • Azure Monitor - راه‌اندازی متریک‌ها و هشدارها 06:44
  • Azure Log Analytics - فعال‌سازی لاگ کردن توسعه یافته و کوئری کردن جداول گزارش‌ 05:30
  • بررسی تنظیمات امنیت 05:12
  • کنترل دسترسی IAM آژور - پیکربندی کنترل دسترسی مبتنی بر نقش (RBAC) 04:45
  • تنظیمات امنیت ادمین فضای کار Databricks 08:18
  • Azure Key Vault - راه‌اندازی منابع 04:14
  • Azure Key Vault - ذخیره کردن Secretها 03:05
  • راه‌اندازی اسکوپ امنیت Key Vault در Databricks و استفاده از Secretها در نوت‌بوک 05:17
  • بررسی مخزن گیت 05:43
  • راه‌اندازی حساب و مخزن گیت هاب 03:21
  • یکپارچه‌سازی مخزن گیت هاب و راه‌اندازی فولدرهای گیت در Databricks 06:21
  • فولدرهای گیت - کار با برنچ‌ها 07:14
  • فولدرهای گیت - کامیت کردن و ادغام کد (درخواست PULL) 03:53
  • فولدرهای گیت - کار مشترک با چندین توسعه‌دهنده 12:08
  • بررسی فرآیند CI و CD 05:58
  • راه‌اندازی محیط تولید 02:53
  • پیکربندی پایپ‌لاین CI و CD با GitHub Actions 02:20
  • بررسی پایپ‌لاین CI و CD کد 10:02
  • تست پایپ‌لاین CI و CD برای استقرار خودکار کد 05:16

5,799,500 1,159,900 تومان

مشخصات آموزش

آموزش Azure DataBricks - مهندسی داده با پروژه‌های بلادرنگ

  • تاریخ به روز رسانی: 1404/06/21
  • سطح دوره:همه سطوح
  • تعداد درس:135
  • مدت زمان :14:41:57
  • حجم :6.69GB
  • زبان:دوبله زبان فارسی
  • دوره آموزشی:AI Academy

آموزش های مرتبط

The Great Courses
1,889,000 377,800 تومان
  • زمان: 04:47:39
  • تعداد درس: 30
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
9,269,000 1,853,800 تومان
  • زمان: 23:28:00
  • تعداد درس: 170
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
770,000 154,000 تومان
  • زمان: 01:57:58
  • تعداد درس: 29
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
4,351,500 870,300 تومان
  • زمان: 11:01:32
  • تعداد درس: 53
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
711,000 142,200 تومان
  • زمان: 01:48:43
  • تعداد درس: 14
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,356,000 271,200 تومان
  • زمان: 03:26:02
  • تعداد درس: 29
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
3,930,000 786,000 تومان
  • زمان: 09:57:30
  • تعداد درس: 74
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
7,379,500 1,475,900 تومان
  • زمان: 18:41:14
  • تعداد درس: 133
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
10,256,500 2,051,300 تومان
  • زمان: 25:58:16
  • تعداد درس: 140
  • سطح دوره:
  • زبان: دوبله فارسی

آیا سوالی دارید؟

ما به شما کمک خواهیم کرد تا شغل و رشد خود را افزایش دهید.
امروز با ما تماس بگیرید