بوتکمپ مهندسی داده - مجموعه 1
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- درک اصول مهندسی داده مدرن
- ساخت و مدیریت دریاچههای داده مقیاسپذیر در AWS S3
- طراحی مدلهای داده اسکیمای ستارهای با جداول Fact و ابعاد
- پیادهسازی ابعاد با تغییرات تدریجی (SCD1 و SCD2)
- توسعه پایپلاینهای ETL با PySpark و بررسیهای کیفیت داده
- کوئری کردن و بررسی دریاچههای داده با AWS Athena و Glue Catalog
- خودکارسازی گردش کارها و پایپلاینها با Apache Airflow
- ایجاد پلاگینهای سفارشی برای مدیریت Jobهای EMR Spark
- اعمال الگوی نوشتن-حسابرسی-انتشار (WAP) برای پایپلاینها در تولید
- پیادهسازی فریمورکهای کیفیت داده و قراردادهای داده
- استقرار و نظارت بر پایپلاینهای داده در AWS EMR
- بهینهسازی گردش کارهای داده برای هزینه، عملکرد و قابلیت اطمینان
- کسب تجربه عملی با موارد استفاده واقعی
- آمادگی برای مصاحبههای مهندسی داده با اعتماد به نفس
پیشنیازهای دوره
- دانش اولیه اس کیوال و پایتون
- آشنایی با داکر و اسکریپتنویسی Bash مفید است.
توضیحات دوره
با این بوتکمپ عملی و پروژهمحور ساخته شده بر اساس پشته داده مدرن، وارد دنیای مهندسی داده شوید و آیندهی شغلی خود را در این حوزه تضمین کنید. این دوره توسط یک معمار داده با بیش از 11 سال تجربه در صنعت تدریس میشود و تئوری و تمرین عملی را ترکیب میکند. این دوره برای مهندسان داده آینده، مهندسان نرمافزار، تحلیلگران و هر کسی که میخواهد یاد بگیرد چگونه پایپلاینهای داده واقعی بسازد طراحی شده است.
شما یاد میگیرید دریاچههای داده مقیاسپذیر طراحی کنید، مدلهای داده ابعادی بسازید، فریمورکهای کیفیت داده را پیادهسازی کنید و پایپلاینها را با Apache Airflow ارکستراسیون کنید، همه این کارها را با یک مورد اپلیکیشن تاکسی اینترنتی برای شبیهسازی سیستمهای سازمانی انجام میدهید.
آنچه یاد خواهید گرفت:
بخش 1: راهاندازی زمینه
پایهای با پشته داده مدرن بسازید، سیستمهای OLTP را درک کنید و معماریهای پلتفرم داده واقعی را بررسی کنید.
- کسب درک واضح از اینکه چگونه داده در شرکتهای مبتنی بر داده جریان مییابد.
- یادگیری استفاده از سناریوی اپلیکیشن تاکسی اینترنتی
- آنبوردینگ صحیح به سفر این بوتکمپ
بخش 2: الزامات دریاچه داده
یاد بگیرید چگونه دریاچههای داده مقیاسپذیر در AWS S3 بسازید و مدیریت کنید.
- معماری S3، پارتیشنبندی، لایهها و تکامل اسکیما
- IAM، رمزگذاری، کلاسهای ذخیرهسازی و نوتیفیکیشنهای رویداد
- مدیریت چرخه عمر، پشتیبانگیری و بازیابی
- کار عملی با Boto3 S3 APIها
بخش 3: مدلسازی داده
تسلط به طراحی اسکیمای ستارهای و پیادهسازی ابعاد با SCD نوع 1 و 2
- مدلسازی ابعادی و Fact
- توسعه ETL برای گزارشدهی تحلیلی
- ساخت مدلهای end-to-end و دیتامارتها با لابراتوارهای عملی
بخش 4: کیفیت داده
اطمینان از اعتماد و یکپارچگی در پایپلاینهای داده
- درک دقت، کامل بودن و سازگاری
- پیادهسازی بررسیهای کیفیت داده با بهترین شیوههای صنعت
- استفاده از قراردادهای داده برای پاسخگویی
بخش 5: AWS Athena
مجموعه دادههای بزرگ را با قدرت بدون سرور با AWS Athena کوئری کنید.
- یادگیری DDL ،Glue Catalog و مدیریت گروه کاری
- خودکارسازی کوئریها با Boto3 APIها
- مقایسه Athena در مقابل Presto در مقابل Trino
- بهینهسازی کوئریها با بهترین شیوهها
بخش 6: آپاچی اسپارک
پایپلاینهای داده سطح تولید با PySpark در AWS EMR بسازید.
- یادگیری معماری اسپارک و PySpark APIها
- ایجاد پایپلاینهای داده با الگوی نوشتن-حسابرسی-انتشار (WAP)
- اجرای Jobهای مقیاسپذیر در AWS EMR
- اعمال UDFها و کیفیت داده در منطق تبدیل
بخش 7: Apache Airflow
گردش کارها را با Airflow ارکستراسیون کنید و پلاگینهای سفارشی بسازید.
- طراحی DAGها، زمانبندی پایپلاینها و مدیریت وابستگیها
- خودکارسازی Jobهای اسپارک با پلاگین سفارشی AWS EMR
- لابراتوارهای عملی برای هضم و تبدیل DAGها
- ساخت راهحلهای ارکستراسیون قابل اطمینان و قابل استفاده مجدد
آنچه خواهید ساخت
یک پلتفرم داده به سبک تولید برای یک شرکت تاکسی اینترنتی شامل موارد زیر:
- دریاچه داده در AWS S3
- مدل داده ابعادی با منطق SCD
- پایپلاینهای تبدیل مبتنی بر اسپارک
- ارکستراسیون خودکار با Airflow
- لایه کوئری با Athena
- اعتبارسنجیهای داخلی کیفیت داده
این دوره برای چه کسانی مناسب است؟
- مهندسان داده مشتاق برای ورود به این حوزه
- توسعهدهندگان نرمافزار یا تحلیلگرانی که در حال انتقال به نقشهای مربوط به داده هستند.
- متخصصانی که به دنبال تجربه عملی در مهندسی داده هستند.
- هر کسی که میخواهد به مجموعه ابزارهای مهندسی داده مدرن مسلط شود.
بوتکمپ مهندسی داده - مجموعه 1
-
آنبوردینگ دانشجو 04:34
-
درک منابع داده 13:22
-
معماری پشته داده مدرن 18:46
-
معماری S3 08:38
-
لابراتوار 1 - Bucketها و Prefixها 04:57
-
لایهها در دریاچه داده 16:50
-
پارتیشنبندی داده در دریاچه داده 07:09
-
لابراتوار 2 - پارتیشنبندی داده 11:02
-
فرمتهای فایل 06:17
-
تکامل اسکیما 05:34
-
فروشگاه متا 05:52
-
لابراتوار 3 - نسخهبندی و Rollback 04:11
-
کلاسهای ذخیرهسازی S3 07:23
-
رویدادهای S3 07:55
-
لابراتوار 4 - نوتیفیکیشنهای S3 10:13
-
امنیت داده 07:22
-
S3 IAM و لیستهای کنترل دسترسی 05:41
-
مدیریت چرخه عمر داده 08:03
-
لابراتوار 5 - چرخه عمر داده 03:58
-
پشتیبانگیری و بازیابی فاجعه 06:15
-
متادیتای S3 06:27
-
S3 Storage Lens 04:22
-
لابراتوار 6 - Storage Lens 04:25
-
لابراتوار 7 - Boto3 S3 APIها 10:20
-
آشنایی با مدلسازی داده 07:11
-
انواع مدلهای داده 07:57
-
مدلسازی ابعادی - SCD1 و SCD2 08:04
-
مدلسازی Fact 07:50
-
دیتامارتها 05:06
-
لابراتوار 1 - SCD نوع 1 11:42
-
لابراتوار 2 - SCD نوع 2 15:13
-
لابراتوار 3 - مدلسازی Fact 30:27
-
آشنایی با کیفیت داده 05:23
-
انواع کیفیت داده 05:53
-
ابزارهای کنترل کیفیت داده 04:45
-
قراردادهای داده 05:23
-
لابراتوار 1 - کنترل کیفیت داده 11:29
-
PrestoDB در مقابل Trino در مقابل Athena 06:52
-
لابراتوار 1 - DDL و Glue Catalog 29:02
-
لابراتوار 2 - کوئری کردن Athena و گروههای کاری 17:43
-
لابراتوار 3 - Boto3 Athena APIها 14:44
-
بهترین شیوههای Athena 08:58
-
معماری اسپارک 10:45
-
PySpark APIها 03:48
-
لابراتوار 1 - PySpark APIها 25:01
-
لابراتوار 2 - UDF در PySpark 08:19
-
لابراتوار 3 - نیازمندیهای پایپلاین داده 02:54
-
لابراتوار 4 - پیادهسازی پایپلاین داده 48:33
-
لابراتوار 5 - اجرای پایپلاین با EMR 17:50
-
بهترین شیوهها 05:07
-
معماری Airflow 03:27
-
لابراتوار 1 - راهاندازی Airflow 12:18
-
لابراتوار 2 - پایپلاین هضم داده - بخش 1 25:13
-
لابراتوار 3 - پایپلاین هضم داده - بخش 2 13:06
-
لابراتوار 4 - پیادهسازی پلاگین 14:28
-
لابراتوار 5 - پایپلاین تبدیل داده 16:20
مشخصات آموزش
بوتکمپ مهندسی داده - مجموعه 1
- تاریخ به روز رسانی: 1404/06/21
- سطح دوره:همه سطوح
- تعداد درس:56
- مدت زمان :10:00:33
- حجم :3.72GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy