دوره آموزشی
The Great Courses
دوبله زبان فارسی

آموزش Apache Spark: فریم‌ورک‌های ETL و استریمینگ داده‌های بلادرنگ

آموزش Apache Spark: فریم‌ورک‌های ETL و استریمینگ داده‌های بلادرنگ

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

  • درک اصول Apache Spark، از جمله Spark Context، RDDها و Transformationها 
  • ساخت و مدیریت کلاسترهای Spark در تنظیمات تک نود و چند نود 
  • توسعه اپلیکیشن‌های کارآمد Spark با استفاده از Transformationها و Actionهای RDD
  • تسلط به فرآیندهای ETL با ایجاد فریم‌ورک‌های مقیاس‌پذیر با Spark
  • پیاده‌سازی استریمینگ داده‌های بلادرنگ و آنالیتیکس با استفاده از Spark Streaming
  • بهره‌گیری از Scala برای اپلیکیشن‌های Spark، از جمله مدیریت داده‌های استریمینگ Twitter
  • بهینه‌سازی پردازش داده‌ها با استفاده از Accumulatorها، متغیرهای Broadcast و تنظیمات پیشرفته

پیش‌نیازهای دوره

  • دانش اولیه برنامه‌نویسی Python و Java
  • آشنایی با فرمان های مقدماتی Linux و اسکریپت‌نویسی Shell
  • درک مفاهیم Big Data مزیت محسوب می‌شود، اما الزامی نیست.
  • یک کامپیوتر با حداقل 8GB رم برای اجرای Spark و تنظیمات VirtualBox

توضیحات دوره

مقدمه:

تکنولوژی Apache Spark یک موتور قدرتمند متن‌باز برای پردازش داده‌های با مقیاس بزرگ است که توانایی مدیریت هم‌زمان آنالیتیکس‌های دسته‌ای و بلادرنگ را دارد. این دوره جامع با عنوان "تسلط به Apache Spark: از مبانی تا ETL پیشرفته و استریمینگ داده‌های بلادرنگ" طراحی شده است تا دانشجو را از سطح مبتدی به پیشرفته برساند و مفاهیم اصلی، پروژه‌های عملی و کاربردهای دنیای واقعی را پوشش دهد. شما دانشی عمیق از قابلیت‌های Spark، از جمله RDDها، Transformationها، Actionها، Spark Streaming و موارد دیگر کسب خواهید کرد. در پایان این دوره، به مهارت‌های لازم برای ساخت راهکارهای مقیاس‌پذیر پردازش داده با استفاده از Spark مجهز خواهید شد.

بخش 1: اصول Apache Spark

این بخش شما را با اصول اولیه Apache Spark آشنا می‌کند و پایه‌ای برای درک قابلیت‌های قدرتمند پردازش داده آن فراهم می‌سازد. شما Spark Context، نقش RDDها، Transformationها و Actionها را بررسی خواهید کرد. با مثال‌های عملی، مدرس نشان می‌دهد چگونه با اجزای اصلی Spark کار کنید و دستکاری‌های ضروری داده را انجام دهید.

  • موضوعات کلیدی پوشش داده شده:

  • مقدمه‌ای بر Spark Context و اجزای آن
  • درک و استفاده از RDDها (مجموعه‌های داده توزیع‌شده مقاوم)
  • اعمال توابع Filter و Transformationها روی RDDها
  • پایداری و کش کردن RDDها برای عملکرد بهینه
  • کار با فرمت‌های مختلف فایل در Spark

در پایان این بخش، درک کاملی از ویژگی‌های اصلی Spark و نحوه بهره‌گیری از RDDها برای پردازش کارآمد داده خواهید داشت.

بخش 2: یادگیری برنامه‌نویسی Spark

با تمرکز بر پیکربندی، تخصیص منابع و راه‌اندازی کلاستر، عمیق‌تر وارد برنامه‌نویسی Spark شوید. یاد خواهید گرفت که چگونه کلاسترهای Spark را روی تنظیمات تک نود و چند نود با استفاده از VirtualBox ایجاد کنید. این بخش همچنین عملیات پیشرفته RDD، شامل Transformationها، Actionها، Accumulatorها و متغیرهای Broadcast را پوشش می‌دهد.

  • موضوعات کلیدی پوشش داده شده:

  • راه‌اندازی Spark روی کلاسترهای Single Node و Multi Node
  • عملیات پیشرفته RDD و پارتیشن‌بندی داده‌ها
  • کار با آرایه‌های Python، مدیریت فایل و تنظیمات Spark
  • استفاده از Accumulatorها و متغیرهای Broadcast برای عملکرد بهینه
  • نوشتن و بهینه‌سازی اپلیکیشن‌های Spark

در پایان این بخش، در نوشتن برنامه‌های کارآمد Spark و مدیریت موثر منابع کلاستر مهارت پیدا خواهید کرد.

بخش 3: پروژه در Apache Spark - ساخت یک فریم‌ورک ETL

دانش خود را با ساخت یک فریم‌ورک قدرتمند ETL (Extract ،Transform Load) با استفاده از Apache Spark به کار بگیرید. این بخشِ پروژه‌محور، شما را در تنظیم ساختار پروژه، کاوش در مجموعه داده‌ها و انجام تبدیل‌های پیچیده راهنمایی می‌کند. همچنین یاد خواهید گرفت که چگونه بارگذاری‌های داده افزایشی را مدیریت کنید تا پایپ‌لاین‌های ETL خود را کارآمدتر سازید.

  • ریز جزئیات پروژه:

  • راه‌اندازی محیط پروژه و نصب پکیج‌های ضروری
  • انجام بررسی و تبدیل داده‌ها
  • پیاده‌سازی بارگذاری داده افزایشی برای فرآیندهای ETL بهینه
  • نهایی‌سازی فریم‌ورک ETL برای استفاده در محیط پروداکشن

در پایان این پروژه، تجربه عملی در ساخت یک فریم‌ورک ETL مقیاس‌پذیر با استفاده از Apache Spark خواهید داشت که مهارتی حیاتی برای مهندسان داده محسوب می‌شود.

بخش 4: موضوعات پیشرفته Apache Spark

این بخش پیشرفته قابلیت‌های Spark را فراتر از پردازش دسته‌ای پوشش می‌دهد و بر استریمینگ داده‌های بلادرنگ، یکپارچه‌سازی با Scala و اتصال Spark به منابع داده خارجی مانند Twitter تمرکز دارد. یاد خواهید گرفت که چگونه داده‌های استریم زنده را پردازش کنید، محاسبات مبتنی بر پنجره را تنظیم نمایید و از Spark Streaming برای آنالیتیکس بلادرنگ استفاده کنید.

  • موضوعات کلیدی پوشش داده شده:

  • مقدمه‌ای بر Spark Streaming برای پردازش داده‌های بلادرنگ
  • اتصال به API توییتر برای تحلیل داده‌های بلادرنگ
  • درک عملیات Window و Checkpointing در Spark
  • اصول برنامه‌نویسی Scala، شامل تطبیق الگو، کالکشن‌ها و Case Classها
  • پیاده‌سازی اپلیکیشن‌های استریمینگ با Maven و Scala

در پایان این بخش، قادر خواهید بود اپلیکیشن‌های پردازش داده بلادرنگ را با استفاده از Spark Streaming بسازید و Scala را برای تحلیل‌های با عملکرد بالا ادغام کنید.

نتیجه‌گیری:

پس از تکمیل این دوره، به اصول و ویژگی‌های پیشرفته Apache Spark، شامل پردازش دسته‌ای، استریمینگ بلادرنگ و توسعه پایپ‌لاین ETL مسلط خواهید شد. شما آماده خواهید بود تا با چالش‌های واقعی مهندسی داده روبرو شوید و مسیر شغلی خود را در زمینه آنالیتیکس Big Data ارتقا دهید.

این دوره برای چه کسانی مناسب است؟

  • مهندسان داده که به دنبال ارتقای مهارت‌های خود در پردازش Big Data با Spark هستند.
  • دانشمندان داده که قصد دارند پایپ‌لاین‌های داده خود را با استفاده از قابلیت‌های Spark مقیاس‌دهی کنند.
  • توسعه‌دهندگان نرم‌افزار که علاقه‌مند به تسلط به پردازش داده‌های توزیع‌شده هستند.
  • متخصصان IT و تحلیل‌گرانی که به دنبال کسب تجربه عملی در Spark برای پروژه‌های Big Data می‌باشند.
  • دانشجویان و علاقه‌مندانی که می‌خواهند وارد حوزه مهندسی داده و تحلیل Big Data شوند.

آموزش Apache Spark: فریم‌ورک‌های ETL و استریمینگ داده‌های بلادرنگ

  • مقدمه‌ای بر Apache Spark 07:12
  • مفهوم Spark Context 06:06
  • کامپوننت های Spark 05:51
  • مقدمه‌ای بر مبانی RDD در Spark 11:23
  • استفاده از تابع Filter 09:10
  • بررسی RDD Transformationها در Spark 07:40
  • ادامه مبحث RDD Transformationها در Spark 07:12
  • مفهوم RDD Persistence در Spark 09:47
  • مرتب‌سازی گروهی و Actionها روی Pair RDDها 07:09
  • فرمت‌های فایل در Spark 10:13
  • ادامه فرمت‌های فایل در Spark 02:16
  • مقدمه‌ای بر Apache Spark 11:50
  • نصب و راه‌اندازی 08:29
  • راه‌اندازی کلاستر Spark با یک نود 11:17
  • مبانی پیکربندی‌ها - تخصیص منابع 07:34
  • نصب VirtualBox در Spark 07:31
  • ایجاد یک سیستم جدید در VirtualBox 06:43
  • ایجاد کلاستر Spark روی چندین نود 08:12
  • ادامه ایجاد کلاستر Spark روی چندین نود 08:14
  • تئوری Spark RDD 11:18
  • عملیات پایه RDD 06:25
  • کار با RDD به همراه آرایه Python 06:22
  • مباحث Transformation و Action در Spark 10:38
  • عملکردهای Flat Map 08:39
  • دستور Group By Key 06:59
  • دستورات SortBy Key و SortBy 08:06
  • عملکردهای Coalesce 05:47
  • اقدامات مربوط به Transformation 11:40
  • دستور Count By Value 11:23
  • درک مفهوم Foreach 06:03
  • ایجاد RDDها از طریق Parallelize 09:18
  • متد Text File برای خواندن فایل‌ها 10:21
  • خواندن فایل‌های متنی 04:33
  • مدیریت فایل و پارتیشن‌های RDD 05:06
  • نوشتن کد و اپلیکیشن Spark 08:33
  • تحلیل خروجی دایرکتوری فعلی 05:19
  • بازنویسی اپلیکیشن‌های Spark 05:42
  • ایجاد متغیر و دسترسی به Spark 07:03
  • گزینه‌های هنگام راه‌اندازی Spark 06:10
  • توابع (Functions) 07:50
  • ادامه مبحث توابع 07:27
  • متغیرهای سراسری (Global Variables) 10:19
  • ادامه مبحث متغیرهای سراسری 04:29
  • آشنایی با Accumulators 03:49
  • مبحث Accumulatorها - انواع داده سفارشی 09:35
  • متغیرهای Broadcast 11:57
  • ادامه مبحث متغیرهای Broadcast 09:48
  • ایجاد یک Dictionary 03:15
  • پایداری RDD 06:24
  • ایجاد RDD یوتیوب 06:36
  • سطح ذخیره‌سازی 08:55
  • سریال‌سازی و پایدارسازی RDDها 06:25
  • مباحث متفرقه 09:35
  • بهترین روش‌ها (Best Practices) 06:46
  • نتیجه‌گیری Apache Spark 07:16
  • مقدمه‌ای بر پروژه 14:27
  • نصب پکیج‌ها 06:49
  • ادامه نصب پکیج‌ها 08:26
  • تنظیم ساختار پروژه 10:02
  • کاوش در مجموعه داده 12:20
  • بارگذاری کامل و Transformationها - قسمت 1 07:13
  • بارگذاری کامل و Transformationها - قسمت 2 06:59
  • بارگذاری کامل و Transformationها - قسمت 3 07:20
  • بارگذاری کامل و Transformationها - قسمت 4 08:37
  • بارگذاری افزایشی 06:49
  • ادامه مبحث بارگذاری افزایشی 09:46
  • مقدمه‌ای بر اتصال به توییتر با استفاده از Spark 09:13
  • فلوچارت Spark 06:13
  • اجزای Spark 07:59
  • سرویس‌های مختلف در حال اجرا بر روی YARN 08:11
  • مقدمه‌ای بر Scala 06:13
  • مبحث Case Classها و Pattern Matching 07:02
  • نصب Scala 07:22
  • متغیرها و توابع 06:42
  • ادامه مبحث متغیرها و توابع 05:20
  • حلقه‌ها (Loops) 11:52
  • مجموعه‌ها (Collections) 10:46
  • بیشتر در مورد Collectionها 07:44
  • کلاس انتزاعی 08:27
  • مثالی از Abstract Class 04:01
  • ویژگی 06:10
  • مثالی از Trait 05:46
  • استثنا 06:09
  • مثال عملی از Exceptionها 06:47
  • شخصی‌سازی Exceptionها در پروژه Scala 09:04
  • مودیفایرها 10:33
  • رشته‌ها (Strings) 11:01
  • متدها در رشته‌ها 09:38
  • ادامه مبحث متدها در رشته‌ها 05:56
  • آرایه (Array) 10:17
  • RDD در Spark 06:41
  • ادامه مبحث RDD در Spark 07:13
  • عملیات‌های مختلف 11:58
  • عملیات Transformation 11:40
  • عملیات Action 06:50
  • ادامه عملیات Action 05:05
  • مقدمه‌ای بر Spark Streaming 07:30
  • چگونگی پردازش داده‌های استریم زنده 07:10
  • ادامه چگونگی پردازش داده‌های استریم زنده 05:58
  • شمارش کلمات پنجره‌ای 06:32
  • مثال Windowed Wordcount 07:10
  • مبحث Checkpointing در Spark 08:48
  • مثال Checkpointing در Spark 08:19
  • ایجاد Maven 10:40
  • ایجاد پروژه Scala 06:55
  • تفاوت بین Hadoop 1.x و 2.x 04:20
  • اتصال به توییتر با استفاده از Spark Streaming 09:13
  • نحوه اتصال به توییتر با استفاده از اپلیکیشن Spark 03:54
  • توضیحات بیشتر در مورد اتصال به توییتر با اپلیکیشن Spark 09:40

5,674,500 1,134,900 تومان

مشخصات آموزش

آموزش Apache Spark: فریم‌ورک‌های ETL و استریمینگ داده‌های بلادرنگ

  • تاریخ به روز رسانی: 1404/10/04
  • سطح دوره:همه سطوح
  • تعداد درس:109
  • مدت زمان :14:22:30
  • حجم :6.13GB
  • زبان:دوبله زبان فارسی
  • دوره آموزشی:AI Academy

آموزش های مرتبط

The Great Courses
1,889,000 377,800 تومان
  • زمان: 04:47:39
  • تعداد درس: 30
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
9,269,000 1,853,800 تومان
  • زمان: 23:28:00
  • تعداد درس: 170
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
500,000 100,000 تومان
  • زمان: 01:16:19
  • تعداد درس: 12
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,580,000 316,000 تومان
  • زمان: 04:00:26
  • تعداد درس: 31
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
770,000 154,000 تومان
  • زمان: 01:57:58
  • تعداد درس: 29
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
490,000 98,000 تومان
  • زمان: 39:24
  • تعداد درس: 25
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,922,000 384,400 تومان
  • زمان: 04:52:39
  • تعداد درس: 73
  • سطح دوره:
  • زبان: دوبله فارسی
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
490,000 98,000 تومان
  • زمان: 1:04:14
  • تعداد درس: 16
  • سطح دوره:
  • زبان: دوبله فارسی

آیا سوالی دارید؟

ما به شما کمک خواهیم کرد تا شغل و رشد خود را افزایش دهید.
امروز با ما تماس بگیرید