مهندسی داده با Spark و Databricks و Delta Lake و Lakehouse
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- کسب مهارتهای لازم برای ورود به موقعیتهای شغلی مهندسی داده
- دستیابی به درک عملی از مفاهیم Data Lakehouse از طریق تجربههای کاربردی
- یادگیری کار با جداول Delta، شامل دسترسی به تاریخچه نسخهها، بازیابی داده و استفاده از قابلیت Time Travel
- بهینهسازی جداول Delta با تکنیکهایی مانند Caching، Partitioning و Z-Ordering برای تحلیل سریعتر دادهها
- کسب دانش عملی در ساخت پایپلاین داده با استفاده از Apache Spark بر روی پلتفرم Databricks
- انجام تحلیل داده در حساب کاربری Databricks روی پلتفرم AWS
پیشنیازهای دوره
- درک اولیه با مفاهیم پایگاه داده و کوئریهای SQL
توضیحات دوره
مهندسی داده یکی از کامپوننت های حیاتی کسبوکارهای مدرن و دادهمحور است. توانایی پردازش، مدیریت و تحلیل مجموعهدادههای بزرگ، یک نیاز اساسی برای سازمانهایی است که میخواهند در بازار رقابتی باقی بمانند. در این دوره، شما یاد میگیرید چگونه یک پایپلاین داده را با استفاده از Apache Spark بر روی معماری Lakehouse پلتفرم Databricks بسازید. این دوره به شما تجربه عملی کار با Spark و مفاهیم Lakehouse را میدهد و شما را برای موفقیت در نقش یک مهندس داده در محیطهای واقعی آماده میکند.
در طول این دوره، شما موارد زیر را خواهید آموخت:
- انجام تحلیل داده با استفاده از Python و Scala به همراه Spark
- استفاده از Spark SQL و Databricks SQL برای تحلیل داده.
- توسعه یک پایپلاین داده با Apache Spark
- کسب مهارت در استفاده از نسخه Community پلتفرم Databricks
- مدیریت جداول Delta، شامل دسترسی به تاریخچه نسخهها، بازیابی داده و استفاده از قابلیت Time Travel
- بهینهسازی عملکرد کوئریها با استفاده از Delta Cache.
- کار با جداول Delta و سیستم فایل Databricks (DBFS)
- کسب بینش عمیق از سناریوهای واقعی با راهنمایی اساتید باتجربه
ساختار دوره:
- دوره با آشنایی شما با نسخه Community پلتفرم Databricks و ساخت یک پایپلاین ساده با Spark آغاز میشود.
- پس از کسب تسلط به پلتفرم، به سراغ مباحث پیچیدهتر خواهید رفت.
- تحلیل داده با Spark و با استفاده از زبانهای Python و Scala را یاد میگیرید که شامل مباحثی چون transformations و actions و joins و Spark SQL و DataFrame APIs میشود.
- دانش و مهارتهای لازم برای کار با جداول Delta، از جمله دسترسی به تاریخچه نسخهها، بازیابی دادهها و استفاده از قابلیت Time Travel با کمک Spark و Databricks SQL را کسب میکنید.
- چگونگی استفاده از Delta Cache برای بهینهسازی عملکرد کوئریها را درک خواهید کرد.
سرفصلهای اختیاری در زمینه یکپارچهسازی با AWS:
- 'راهاندازی حساب Databricks بر روی AWS' و 'اجرای Notebookها در حساب Databricks روی AWS'.
- ساخت یک پایپلاین ETL با استفاده از Delta Live Tables.
- این بخشها فرصتهای بیشتری برای کار با Databricks در اکوسیستم AWS فراهم میکنند.
این دوره برای مبتدیان حوزه مهندسی داده طراحی شده و نیازی به دانش قبلی Python و Scala ندارد. با این حال، آشنایی با پایگاههای داده و SQL برای موفقیت در این دوره ضروری است. پس از اتمام دوره، شما مهارت و دانش لازم برای موفقیت در یک موقعیت شغلی واقعی به عنوان مهندس داده را خواهید داشت.
در سراسر دوره، شما با مثالهای عملی و سناریوهای واقعی کار خواهید کرد تا مفاهیم آموختهشده را به کار ببرید. در پایان، شما تجربه عملی و مهارتهای مورد نیاز برای درک مفاهیم Spark و Lakehouse را کسب کرده و قادر خواهید بود یک پایپلاین داده مقیاسپذیر و قابلاعتماد را با استفاده از Spark بر روی معماری Lakehouse پلتفرم Databricks بسازید.
این دوره برای چه کسانی مناسب است؟
- افراد مبتدی در حوزه مهندسی داده
مهندسی داده با Spark و Databricks و Delta Lake و Lakehouse
-
مقدمه 02:06
-
مهندسی داده با Spark 03:52
-
Databricks چیست؟ 02:07
-
ایجاد حساب کاربری Databricks Community Edition 02:50
-
ساخت یک پایپلاین داده اولیه 00:32
-
خواندن داده از DBFS و جداول Delta 10:58
-
نوشتن داده در DBFS و جداول Delta 07:56
-
اکسپورت و ایمپورت Notebooks 01:20
-
بازبینی پایپلاین داده اولیه 00:51
-
عملیات و تبدیلات بیشتر با PySpark 09:09
-
انجام تبدیلات در Scala 05:45
-
دوره فشرده Python و Scala 06:27
-
توابع تعریفشده توسط کاربر (UDF) در Spark 14:24
-
ادغام دادهها با DataFrame API و Spark SQL 14:57
-
عملیات Join بیشتر با Spark 04:48
-
خلاصه بخش 01:26
-
آشنایی با انبار داده، دریاچه داده و Lakehouse 07:31
-
معماری Databricks Lakehouse و Delta Lake 04:38
-
جداول Delta 01:32
-
ذخیره داده در جدول Delta و Databricks SQL و قابلیت Time Travel 12:35
-
مقایسه Databricks SQL و Spark SQL 05:50
-
کشینگ در جداول Delta 10:43
-
پارتیشنبندی در جداول Delta 05:31
-
تکنیک Z-Ordering در جداول Delta 05:07
-
ایجاد حساب کاربری AWS 05:16
-
راهاندازی حساب Databricks روی AWS 08:48
-
اجرای Notebookها در حساب Databricks روی AWS 12:31
-
ساخت پایپلاین ETL با Delta Live Tables 14:19
-
مدیریت هویت و دسترسی (IAM) در AWS 10:45
-
آشنایی با سرویس AWS Glue 02:12
-
آزمایشگاه: ایجاد کاتالوگ داده در Glue و مشاهده دادهها در Athena 07:54
-
آزمایشگاه: اجرای یک فرآیند ETL با استفاده از Glue 05:13
-
آشنایی با سرویس Amazon EventBridge 04:24
-
آزمایشگاه: فعالسازی اعلان SNS برای رویداد آپلود در S3 با EventBridge 04:31
-
آشنایی با سرویس AWS Step Functions 02:44
-
آزمایشگاه: هماهنگسازی توابع Lambda با State Machine در Step Functions 05:12
-
آزمایشگاه: هماهنگسازی گردش کار ETL با Glue، Lambda، EventBridge و Step Functions 08:04
-
آشنایی با Kinesis Data Stream 08:12
-
آزمایشگاه: ذخیره و بازیابی داده از Kinesis Data Stream با AWS CLI 08:30
-
آزمایشگاه: تولیدکننده و مصرفکننده Kinesis Data Stream با Python Boto3 06:08
-
آزمایشگاه: نوشتن دادههای شبیهسازیشده آبوهوا از Kinesis Stream به S3 با AWS Lambda 06:25
-
شروع کار با AWS EC2: اصول Amazon EMR 07:21
-
آزمایشگاه: اجرای فرآیندهای تبدیلات Spark با Amazon EMR روی EC2 08:52
-
آشنایی با Amazon Redshift 01:32
-
آزمایشگاه: ایجاد انبار داده روی دادههای S3 با استفاده از Amazon Redshift 13:21
-
AWS Glue DataBrew: تبدیل داده بدون نیاز به کدنویسی 08:14
-
گامهای بعدی چیست؟ 00:33
مشخصات آموزش
مهندسی داده با Spark و Databricks و Delta Lake و Lakehouse
- تاریخ به روز رسانی: 1404/09/07
- سطح دوره:مقدماتی
- تعداد درس:47
- مدت زمان :05:03:56
- حجم :3.02GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy