آموزش Apache Spark: فریمورکهای ETL و استریمینگ دادههای بلادرنگ
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- درک اصول Apache Spark، از جمله Spark Context، RDDها و Transformationها
- ساخت و مدیریت کلاسترهای Spark در تنظیمات تک نود و چند نود
- توسعه اپلیکیشنهای کارآمد Spark با استفاده از Transformationها و Actionهای RDD
- تسلط به فرآیندهای ETL با ایجاد فریمورکهای مقیاسپذیر با Spark
- پیادهسازی استریمینگ دادههای بلادرنگ و آنالیتیکس با استفاده از Spark Streaming
- بهرهگیری از Scala برای اپلیکیشنهای Spark، از جمله مدیریت دادههای استریمینگ Twitter
- بهینهسازی پردازش دادهها با استفاده از Accumulatorها، متغیرهای Broadcast و تنظیمات پیشرفته
پیشنیازهای دوره
- دانش اولیه برنامهنویسی Python و Java
- آشنایی با فرمان های مقدماتی Linux و اسکریپتنویسی Shell
- درک مفاهیم Big Data مزیت محسوب میشود، اما الزامی نیست.
- یک کامپیوتر با حداقل 8GB رم برای اجرای Spark و تنظیمات VirtualBox
توضیحات دوره
مقدمه:
تکنولوژی Apache Spark یک موتور قدرتمند متنباز برای پردازش دادههای با مقیاس بزرگ است که توانایی مدیریت همزمان آنالیتیکسهای دستهای و بلادرنگ را دارد. این دوره جامع با عنوان "تسلط به Apache Spark: از مبانی تا ETL پیشرفته و استریمینگ دادههای بلادرنگ" طراحی شده است تا دانشجو را از سطح مبتدی به پیشرفته برساند و مفاهیم اصلی، پروژههای عملی و کاربردهای دنیای واقعی را پوشش دهد. شما دانشی عمیق از قابلیتهای Spark، از جمله RDDها، Transformationها، Actionها، Spark Streaming و موارد دیگر کسب خواهید کرد. در پایان این دوره، به مهارتهای لازم برای ساخت راهکارهای مقیاسپذیر پردازش داده با استفاده از Spark مجهز خواهید شد.
بخش 1: اصول Apache Spark
این بخش شما را با اصول اولیه Apache Spark آشنا میکند و پایهای برای درک قابلیتهای قدرتمند پردازش داده آن فراهم میسازد. شما Spark Context، نقش RDDها، Transformationها و Actionها را بررسی خواهید کرد. با مثالهای عملی، مدرس نشان میدهد چگونه با اجزای اصلی Spark کار کنید و دستکاریهای ضروری داده را انجام دهید.
موضوعات کلیدی پوشش داده شده:
- مقدمهای بر Spark Context و اجزای آن
- درک و استفاده از RDDها (مجموعههای داده توزیعشده مقاوم)
- اعمال توابع Filter و Transformationها روی RDDها
- پایداری و کش کردن RDDها برای عملکرد بهینه
- کار با فرمتهای مختلف فایل در Spark
در پایان این بخش، درک کاملی از ویژگیهای اصلی Spark و نحوه بهرهگیری از RDDها برای پردازش کارآمد داده خواهید داشت.
بخش 2: یادگیری برنامهنویسی Spark
با تمرکز بر پیکربندی، تخصیص منابع و راهاندازی کلاستر، عمیقتر وارد برنامهنویسی Spark شوید. یاد خواهید گرفت که چگونه کلاسترهای Spark را روی تنظیمات تک نود و چند نود با استفاده از VirtualBox ایجاد کنید. این بخش همچنین عملیات پیشرفته RDD، شامل Transformationها، Actionها، Accumulatorها و متغیرهای Broadcast را پوشش میدهد.
موضوعات کلیدی پوشش داده شده:
- راهاندازی Spark روی کلاسترهای Single Node و Multi Node
- عملیات پیشرفته RDD و پارتیشنبندی دادهها
- کار با آرایههای Python، مدیریت فایل و تنظیمات Spark
- استفاده از Accumulatorها و متغیرهای Broadcast برای عملکرد بهینه
- نوشتن و بهینهسازی اپلیکیشنهای Spark
در پایان این بخش، در نوشتن برنامههای کارآمد Spark و مدیریت موثر منابع کلاستر مهارت پیدا خواهید کرد.
بخش 3: پروژه در Apache Spark - ساخت یک فریمورک ETL
دانش خود را با ساخت یک فریمورک قدرتمند ETL (Extract ،Transform Load) با استفاده از Apache Spark به کار بگیرید. این بخشِ پروژهمحور، شما را در تنظیم ساختار پروژه، کاوش در مجموعه دادهها و انجام تبدیلهای پیچیده راهنمایی میکند. همچنین یاد خواهید گرفت که چگونه بارگذاریهای داده افزایشی را مدیریت کنید تا پایپلاینهای ETL خود را کارآمدتر سازید.
ریز جزئیات پروژه:
- راهاندازی محیط پروژه و نصب پکیجهای ضروری
- انجام بررسی و تبدیل دادهها
- پیادهسازی بارگذاری داده افزایشی برای فرآیندهای ETL بهینه
- نهاییسازی فریمورک ETL برای استفاده در محیط پروداکشن
در پایان این پروژه، تجربه عملی در ساخت یک فریمورک ETL مقیاسپذیر با استفاده از Apache Spark خواهید داشت که مهارتی حیاتی برای مهندسان داده محسوب میشود.
بخش 4: موضوعات پیشرفته Apache Spark
این بخش پیشرفته قابلیتهای Spark را فراتر از پردازش دستهای پوشش میدهد و بر استریمینگ دادههای بلادرنگ، یکپارچهسازی با Scala و اتصال Spark به منابع داده خارجی مانند Twitter تمرکز دارد. یاد خواهید گرفت که چگونه دادههای استریم زنده را پردازش کنید، محاسبات مبتنی بر پنجره را تنظیم نمایید و از Spark Streaming برای آنالیتیکس بلادرنگ استفاده کنید.
موضوعات کلیدی پوشش داده شده:
- مقدمهای بر Spark Streaming برای پردازش دادههای بلادرنگ
- اتصال به API توییتر برای تحلیل دادههای بلادرنگ
- درک عملیات Window و Checkpointing در Spark
- اصول برنامهنویسی Scala، شامل تطبیق الگو، کالکشنها و Case Classها
- پیادهسازی اپلیکیشنهای استریمینگ با Maven و Scala
در پایان این بخش، قادر خواهید بود اپلیکیشنهای پردازش داده بلادرنگ را با استفاده از Spark Streaming بسازید و Scala را برای تحلیلهای با عملکرد بالا ادغام کنید.
نتیجهگیری:
پس از تکمیل این دوره، به اصول و ویژگیهای پیشرفته Apache Spark، شامل پردازش دستهای، استریمینگ بلادرنگ و توسعه پایپلاین ETL مسلط خواهید شد. شما آماده خواهید بود تا با چالشهای واقعی مهندسی داده روبرو شوید و مسیر شغلی خود را در زمینه آنالیتیکس Big Data ارتقا دهید.
این دوره برای چه کسانی مناسب است؟
- مهندسان داده که به دنبال ارتقای مهارتهای خود در پردازش Big Data با Spark هستند.
- دانشمندان داده که قصد دارند پایپلاینهای داده خود را با استفاده از قابلیتهای Spark مقیاسدهی کنند.
- توسعهدهندگان نرمافزار که علاقهمند به تسلط به پردازش دادههای توزیعشده هستند.
- متخصصان IT و تحلیلگرانی که به دنبال کسب تجربه عملی در Spark برای پروژههای Big Data میباشند.
- دانشجویان و علاقهمندانی که میخواهند وارد حوزه مهندسی داده و تحلیل Big Data شوند.
آموزش Apache Spark: فریمورکهای ETL و استریمینگ دادههای بلادرنگ
-
مقدمهای بر Apache Spark 07:12
-
مفهوم Spark Context 06:06
-
کامپوننت های Spark 05:51
-
مقدمهای بر مبانی RDD در Spark 11:23
-
استفاده از تابع Filter 09:10
-
بررسی RDD Transformationها در Spark 07:40
-
ادامه مبحث RDD Transformationها در Spark 07:12
-
مفهوم RDD Persistence در Spark 09:47
-
مرتبسازی گروهی و Actionها روی Pair RDDها 07:09
-
فرمتهای فایل در Spark 10:13
-
ادامه فرمتهای فایل در Spark 02:16
-
مقدمهای بر Apache Spark 11:50
-
نصب و راهاندازی 08:29
-
راهاندازی کلاستر Spark با یک نود 11:17
-
مبانی پیکربندیها - تخصیص منابع 07:34
-
نصب VirtualBox در Spark 07:31
-
ایجاد یک سیستم جدید در VirtualBox 06:43
-
ایجاد کلاستر Spark روی چندین نود 08:12
-
ادامه ایجاد کلاستر Spark روی چندین نود 08:14
-
تئوری Spark RDD 11:18
-
عملیات پایه RDD 06:25
-
کار با RDD به همراه آرایه Python 06:22
-
مباحث Transformation و Action در Spark 10:38
-
عملکردهای Flat Map 08:39
-
دستور Group By Key 06:59
-
دستورات SortBy Key و SortBy 08:06
-
عملکردهای Coalesce 05:47
-
اقدامات مربوط به Transformation 11:40
-
دستور Count By Value 11:23
-
درک مفهوم Foreach 06:03
-
ایجاد RDDها از طریق Parallelize 09:18
-
متد Text File برای خواندن فایلها 10:21
-
خواندن فایلهای متنی 04:33
-
مدیریت فایل و پارتیشنهای RDD 05:06
-
نوشتن کد و اپلیکیشن Spark 08:33
-
تحلیل خروجی دایرکتوری فعلی 05:19
-
بازنویسی اپلیکیشنهای Spark 05:42
-
ایجاد متغیر و دسترسی به Spark 07:03
-
گزینههای هنگام راهاندازی Spark 06:10
-
توابع (Functions) 07:50
-
ادامه مبحث توابع 07:27
-
متغیرهای سراسری (Global Variables) 10:19
-
ادامه مبحث متغیرهای سراسری 04:29
-
آشنایی با Accumulators 03:49
-
مبحث Accumulatorها - انواع داده سفارشی 09:35
-
متغیرهای Broadcast 11:57
-
ادامه مبحث متغیرهای Broadcast 09:48
-
ایجاد یک Dictionary 03:15
-
پایداری RDD 06:24
-
ایجاد RDD یوتیوب 06:36
-
سطح ذخیرهسازی 08:55
-
سریالسازی و پایدارسازی RDDها 06:25
-
مباحث متفرقه 09:35
-
بهترین روشها (Best Practices) 06:46
-
نتیجهگیری Apache Spark 07:16
-
مقدمهای بر پروژه 14:27
-
نصب پکیجها 06:49
-
ادامه نصب پکیجها 08:26
-
تنظیم ساختار پروژه 10:02
-
کاوش در مجموعه داده 12:20
-
بارگذاری کامل و Transformationها - قسمت 1 07:13
-
بارگذاری کامل و Transformationها - قسمت 2 06:59
-
بارگذاری کامل و Transformationها - قسمت 3 07:20
-
بارگذاری کامل و Transformationها - قسمت 4 08:37
-
بارگذاری افزایشی 06:49
-
ادامه مبحث بارگذاری افزایشی 09:46
-
مقدمهای بر اتصال به توییتر با استفاده از Spark 09:13
-
فلوچارت Spark 06:13
-
اجزای Spark 07:59
-
سرویسهای مختلف در حال اجرا بر روی YARN 08:11
-
مقدمهای بر Scala 06:13
-
مبحث Case Classها و Pattern Matching 07:02
-
نصب Scala 07:22
-
متغیرها و توابع 06:42
-
ادامه مبحث متغیرها و توابع 05:20
-
حلقهها (Loops) 11:52
-
مجموعهها (Collections) 10:46
-
بیشتر در مورد Collectionها 07:44
-
کلاس انتزاعی 08:27
-
مثالی از Abstract Class 04:01
-
ویژگی 06:10
-
مثالی از Trait 05:46
-
استثنا 06:09
-
مثال عملی از Exceptionها 06:47
-
شخصیسازی Exceptionها در پروژه Scala 09:04
-
مودیفایرها 10:33
-
رشتهها (Strings) 11:01
-
متدها در رشتهها 09:38
-
ادامه مبحث متدها در رشتهها 05:56
-
آرایه (Array) 10:17
-
RDD در Spark 06:41
-
ادامه مبحث RDD در Spark 07:13
-
عملیاتهای مختلف 11:58
-
عملیات Transformation 11:40
-
عملیات Action 06:50
-
ادامه عملیات Action 05:05
-
مقدمهای بر Spark Streaming 07:30
-
چگونگی پردازش دادههای استریم زنده 07:10
-
ادامه چگونگی پردازش دادههای استریم زنده 05:58
-
شمارش کلمات پنجرهای 06:32
-
مثال Windowed Wordcount 07:10
-
مبحث Checkpointing در Spark 08:48
-
مثال Checkpointing در Spark 08:19
-
ایجاد Maven 10:40
-
ایجاد پروژه Scala 06:55
-
تفاوت بین Hadoop 1.x و 2.x 04:20
-
اتصال به توییتر با استفاده از Spark Streaming 09:13
-
نحوه اتصال به توییتر با استفاده از اپلیکیشن Spark 03:54
-
توضیحات بیشتر در مورد اتصال به توییتر با اپلیکیشن Spark 09:40
مشخصات آموزش
آموزش Apache Spark: فریمورکهای ETL و استریمینگ دادههای بلادرنگ
- تاریخ به روز رسانی: 1404/10/04
- سطح دوره:همه سطوح
- تعداد درس:109
- مدت زمان :14:22:30
- حجم :6.13GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy