کوپایلت تبدیل داده Prophecy برای مهندسی داده

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

در این دوره Databricks و مهندسی داده اسپارک را می آموزید تا تبدیل داده سلف سرویس و توسعه سریع پایپ لاین را انجام دهید.

آنچه یاد خواهید گرفت

پارادایم data lakehouse را برای یک شرکت تجارت الکترونیک می آموزید و طراحی می کنید.
محیط لابراتوار عملی با این دوره فراهم شده است.
یک معماری medallion را با استفاده از Prophecy که روی Databricks اجرا می شود، پیاده و مستقر می کنید.
آپاچی اسپارک و بهترین شیوه های آن را با یوزکیس های واقعی درک می کنید.
کامپوننت های پایپ لاین را با متخصصان داده و تحلیلگران به اشتراک می گذارید و گسترش می دهید.
پایپ لاین ها را برای تولید و CI/CD و بهترین شیوه ها مستقر می کنید.
از کنترل نسخه و مدیریت تغییر در مهندسی داده استفاده می کنید.
check های کیفیت داده و تست های واحد را مستقر می کنید.

توضیحات دوره

ما با مرحله‌ بندی داده‌ جذب شده از پلتفرم‌ های اپلیکیشنی مانند Salesforce، پایگاه‌ داده های عملیاتی با داده‌ تراکنشی CDC و داده‌ تولید شده توسط ماشین مانند لاگ ها و متریک ها شروع خواهیم کرد. ما می خواهیم جداول جذب شده را پاکسازی و نرمال سازی کنیم تا یک مدل داده کامل، تمیز و کارآمد تهیه کنیم. از آن مدل داده، ما چهار پروژه ایجاد می‌ کنیم که اپلیکیشن های consumption را برای یوزکیس های واقعی مختلف ایجاد می‌ کنند.

با هر یک از پروژه ها، مطالب جدیدی یاد خواهید گرفت:

ما یک اکسپورت spreadsheet برای بخش مالی شما ایجاد می کنیم، جایی که مفاهیم مدل سازی و تبدیل داده را بررسی خواهیم کرد. از آنجایی که بخش مالی واقعاً به کیفیت داده اهمیت می دهد، ما همچنین در مورد نحوه راه اندازی تست های واحد و تست های یکپارچه سازی برای حفظ کیفیت بالا یاد خواهیم گرفت.
ما یک سیستم هشداردهی برای تیم پشتیبانی عملیاتی شما ایجاد خواهیم کرد تا از موفقیت مشتری اطمینان حاصل کنیم، جایی که می خواهیم در مورد بهترین شیوه های ارکستراسیون بیاموزیم.
آپلود داده‌ فروش که می‌ تواند به Salesforce بازگردانده شود، جایی که ما مفاهیم توسعه‌ پذیری پیشرفته را بررسی خواهیم کرد که به ما امکان می‌ دهد شیوه‌ های استاندارد شده را ایجاد و دنبال کنیم.
یک داشبورد مستقیماً در Databricks برای تیم محصول شما برای نظارت بر استفاده لایو - در اینجا ما موارد زیادی در مورد مشاهده پذیری و کیفیت داده یاد می گیریم.

این دوره برای چه کسانی مناسب است؟

مهندسان داده، دانشمندان داده، تحلیلگران داده، معماران داده، رهبران داده و رهبران مهندسی داده

کوپایلت تبدیل داده Prophecy برای مهندسی داده

فصل 1: استقبال گرم از هم بنیانگذار Prophecy

به Prophecy برای مهندسی داده در Databricks و اسپارک خوش آمدید 04:59
ثبت نام برای محیط لابراتوار خود - بیایید شروع کنیم None

فصل 2: آینده تبدیل داده

آینده تبدیل داده چیست؟ 00:56
تکامل تبدیل داده 02:05
راه حل ایده آل تبدیل داده برای ابر 05:50
Prophecy و آینده تبدیل داده 02:50
چگونه تبدیل داده ایده آل را در ابر ایجاد کنیم؟ 01:07

فصل 3: دریاچه های داده، انبارها و lakehouses - چه زمانی از کدام استفاده کنیم؟ (اختیاری)

دریاچه داده چیست و تفاوت بین دریاچه داده و انبار داده؟ 04:00
معرفی data lakehouse و اینکه چرا یک راه حل عالی است؟ 02:01

فصل 4: آشنایی با اسپارک و Databricks (اختیاری)

آشنایی با مدرس و بررسی ماژول 03:54
معماری و مفاهیم آپاچی اسپارک 09:21
زبان و ابزارهای اسپارک 07:44
از آپاچی اسپارک تا Databricks - چرا آن ها متفاوت هستند؟ 13:06
Data lakehouse ،unity catalog، بهینه سازی و امنیت 08:44
کار با بهترین شیوه های اسپارک 05:49
نکات و ترفندهای اسپارک و Databricks 05:18

فصل 5: شروع کار با Prophecy

بررسی Prophecy - بیایید با هم یاد بگیریم 01:44
راه اندازی Databricks Fabric برای اجرای پایپ لاین ها 03:53
ایجاد پروژه Prophecy برای مدیریت کد اسپارک 03:17
شروع کار با Pipeline canvas 05:40
بررسی code view و انجام تجمیع های ساده 01:58
جوین شدن به حساب ها و فرصت های داده و نوشتن نتایج در جدول دلتا 02:33
ایجاد یک پایپ لاین و خواندن از منابع داده برای شروع ساخت پایپ لاین خود 05:40
استقرار پایپ لاین ها در تولید برای اجرای پایپ لاین های زمانبندی شده ما 03:46
آشنایی با کاربران و تیم های Prophecy 02:05
تکمیل و اجرای اولین پایپ لاین خود None

فصل 6: منابع داده و اهداف داده

بررسی منابع داده و اهداف داده 00:38
تجزیه و خواندن داده خام از فروشگاه آبجکت با بهترین شیوه ها 02:31
منابع داده داخلی Prophecy و مجموعه داده ها 02:11
بررسی گزینه های پیش فرض منبع داده 02:13
خواندن و تجزیه منبع داده parquet منبع و ادغام اسکیما 04:20
مدیریت رکوردهای فاسد و بدشکل هنگام خواندن از فروشگاه های آبجکت 02:50
گزینه های اضافی برای مدیریت رکوردهای فاسد و بدشکل 02:41
کار با اسکیمای داده منبع و delimiters 02:38
خواندن از جداول دلتا به عنوان منابع 01:05
نوشتن داده در جدول دلتا با استفاده از Gem هدف 01:55
پارتیشن بندی داده هنگام نوشتن در جدول دلتا برای عملکرد بهینه 02:09
آنچه در این ماژول آموخته ایم 01:51
کار با رکوردهای فاسد و بدشکل None

فصل 7: معماری Data Lakehouse

بررسی ماژول معماری medallion و Data lakehouse 02:09
معماری Medallion - ویژگی های لایه طلایی، نقره ای و برنز 03:05
خواندن و نوشتن داده بر اساس پارتیشن - بارگذاری روزانه از ذخیره سازی آبجکت 02:34
بارگذاری داده اضافی بر اساس پارتیشن - بارگذاری روزانه از ذخیره سازی آبجکت 01:17
آشنایی با مدل های داده در data lakehouse 04:08
نوشتن داده لایه برنز در جداول دلتا 02:00
آشنایی با تغییرات آهسته ابعاد (SCD) 01:43
پیاده سازی SCD2 ساده برای جدول لایه برنز 06:50
بارگذاری انبوه گزینه های خواندن و نوشتن 00:57
بارگذاری انبوه داده تاریخی با SCD2 05:40
نسخه سازی داده جدول دلتا 05:28
کار با اسکیماهای ناسازگار 04:23
بازیابی داده از نسخه قبلی 02:07
خلاصه ای از آنچه در این ماژول آموخته ایم 00:33
بارگذاری انبوه لایه برنز None
بار افزایشی روزانه لایه برنز None
پیاده سازی جدول SCD1 برای مشتریان None

فصل 8: ساخت لایه های طلایی و نقره ای

ساخت لایه های طلایی و نقره ای - بررسی 03:25
یکپارچه سازی و پاکسازی داده در لایه نقره ای 02:05
ساخت مدل داده و یکپارچه سازی داده در لایه نقره ای 03:16
پیاده سازی SCD2 در لایه نقره ای 04:16
تولید شناسه های منحصر به فرد و نوشتن داده در جداول دلتا 02:52
الزامات کسب و کار برای لایه طلایی 01:27
انجام تحلیل در لایه طلایی برای ساخت گزارش های کسب و کار 03:09
استفاده از گراف های فرعی برای قابلیت استفاده مجدد برای ساده سازی پایپ لاین ها 01:54
خلاصه ای از آنچه در این ماژول آموخته ایم 00:48
ساخت لایه نقره ای با یکپارچه سازی داده از لایه برنز None
ساخت گزارش کسب و کار در لایه طلایی None

فصل 9: استقرار پایپ لاین ها برای تولید

بررسی استقرار پایپ لاین 00:48
روش هایی برای ارکستراسیون گردش کارها برای خودکارسازی jobs 01:50
پیکربندی پایپ لاین افزایشی برای آماده سازی برای اجراهای زمانبندی شده 02:03
ایجاد Prophecy Job برای زمانبندی پایپ لاین ها برای اجرای روزانه 04:03
CI/CD چیست و چگونه پایپ لاین ها را در تولید مستقر کنیم؟ 02:42
یوزکیس های پیشرفته - یکپارچه سازی با فرآیند CI/CD خارجی با استفاده از PBT 04:01
خلاصه ای از آنچه در این ماژول آموخته ایم 00:26
زمانبندی پایپ لاین لایه نقره ای بازاریابی برای اجرای روزانه None

فصل 10: مدیریت نسخه ها و کنترل تغییر

بررسی مدیریت نسخه و کنترل تغییر 00:40
پروژه های Prophecy و فرآیند گیت 02:20
همکاری روی یک پایپ لاین - ضبط برنچ توسعه به برنچ اصلی 01:34
Revert کردن تغییرات هنگام توسعه یک پایپ لاین قبل از انجام 01:10
Revert کردن به کامیت قبلی پس از انجام با استفاده از rollback 00:50
ادغام تغییرات و سوئیچینگ بین برنچ ها 01:48
حل تعارضات کد با چندین عضو تیم که کامیت ها را ایجاد می کنند 02:18
کلون سازی پروژه فعلی Prophecy در مخزن جدید 02:10
استفاده مجدد از یک پروژه Prophecy موجود با ایمپورت پروژه 01:19
ایجاد pull requests و مدیریت تعارضات کامیت 03:49
خلاصه ای از آنچه در این ماژول آموخته ایم 00:32
کلون سازی پروژه دوره در مخزن خود None

فصل 11: قابلیت استفاده مجدد و توسعه پذیری

بررسی قابلیت استفاده مجدد و توسعه پذیری 01:34
اهمیت تنظیم استانداردهای مهندسی داده - استفاده مجدد و توسعه 03:16
تبدیل اسکریپت به Gem سفارشی برای اشتراک گذاری و استفاده مجدد 02:03
ایجاد Gem جدید برای مکعب چندبعدی با استفاده از عبارت مشخص شده 02:57
ایجاد رابط کاربری برای Gem مکعب برای کاربران برای تعریف مکعب 02:01
افزودن ویژگی‌ های اضافی برای سفارشی سازی رابط کاربری شهودی Gem 01:27
مدیریت خطا با افزودن اعتبارسنجی ها و پیام های خطای سفارشی شده 01:59
تست Gem مکعب سفارشی و انتشار Gem برای اشتراک گذاری با دیگران 01:57
تخصیص دسترسی مناسب برای اشتراک گذاری Gem مکعب جدید 01:41
استفاده از Gem مکعب تازه ایجاد شده با افزودن یک وابستگی به آن 05:50
خلاصه ای از آنچه در این ماژول آموخته ایم 00:30
ایجاد Gem سفارشی خود None

فصل 12: تست داده

بررسی کیفیت داده و تست واحد 01:25
معماری Medallion و کیفیت داده 02:32
بررسی پایپ لاین کیفیت داده - چگونه لاگ کیفیت داده را populate کنیم؟ 03:40
check های کیفیت داده لایه نقره ای، تعریف خطاها و نوشتن در جدول دلتا 03:52
check های کیفیت یکپارچه‌ سازی داده‌ با جوین ها - چک کردن اینکه آیا شناسه‌ های مشتری وجود دارد 01:18
انجام check های تطبیق داده - شناسایی مقادیر ناهماهنگ ستون 04:20
شناسایی و ردیابی مسائل مربوط به کیفیت داده با drill down کردن به یک شناسه خاص 01:07
اجرای check های کیفیت داده‌ در چند فاز - در صورت وجود خطا، پایپ لاین را متوقف کنید 02:35
گزینه های تست واحد - تست عبارات با استفاده از برابری خروجی 03:09
بررسی code view تست واحد 01:12
اجرای تست های واحد 01:32
عبارات تست واحد با استفاده از گزاره های خروجی 02:51
خلاصه ای از آنچه در این ماژول آموخته ایم 00:38
چک کردن کیفیت داده بازاریابی None

فصل 13: نظارت و مشاهده پذیری

بررسی نظارت و مشاهده پذیری 01:06
آشنایی با متادیتای Prophecy و متریک های اجرا 01:38
بررسی سریع رابط کاربری متادیتای Prophecy 02:21
دسترسی و مقایسه آمار و اجراهای تاریخی پایپ لاین 03:08
متادیتای مجموعه داده - استنتاج متادیتای Databricks و پس انتشار از طریق پایپ لاین 01:57
مشاهده jobs و اجرای تاریخچه 01:01
آشنایی با نسب داده 01:19
ردیابی و نظارت بر تغییرات داده با استفاده از نسب داده 04:11
خلاصه ای از آنچه در این ماژول آموخته ایم 00:47