دوره آموزشی

دوبله زبان فارسی

مهندسی داده و کلان‌داده با Apache Spark و PySpark

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

درک اصول کلان‌داده: مفاهیم کلیدی کلان‌داده و تکامل از Hadoop به Spark را توضیح دهید.
یادگیری معماری اسپارک: کامپوننت ها و معماری اصلی Apache Spark، شامل RDDs ،DataFrames و Datasets را شرح دهید.
راه‌اندازی اسپارک: Spark را در حالت‌های محلی و مستقل برای توسعه و تست نصب و پیکربندی کنید.
نوشتن برنامه‌های PySpark: اپلیکیشن های PySpark را با استفاده از پایتون شامل عملیات‌های اولیه بر روی RDDs و DataFrames ایجاد و اجرا کنید.
تسلط به عملیات‌های RDD: تبدیل‌ها و عملیات‌هارا ضمن استفاده از کش و پایداری بر روی RDDs مانند map ،filter ،reduce و groupBy انجام دهید.
کار با SparkContext و SparkSession: نقش آن‌ها را درک کرده و آن‌ها را به طور مؤثر در اپلیکیشن های PySpark مدیریت کنید.
کار با DataFrames: DataFrames را برای پردازش داده‌ ساختاریافته ایجاد، دستکاری و بهینه کنید.
اجرای کوئری‌های SQL در SparkSQL: از SparkSQL برای کوئری گرفتن از DataFrames استفاده کنید و SQL را با عملیات‌های DataFrame یکپارچه کنید.
مدیریت فرمت‌های مختلف داده: داده‌ را ضمن بهینه‌سازی ذخیره‌سازی داده با پارتیشن‌بندی و باکتینگ در فرمت‌هایی مانند CSV ،JSON ،Parquet و Avro بخوانید و بنویسید.
ساخت پایپ‌لاین‌های داده: پایپ‌لاین‌های داده دسته‌ای و بلادرنگ را برای دریافت، تبدیل و تجمیع داده طراحی و پیاده‌سازی کنید.
یادگیری مبانی Spark Streaming: داده‌ بلادرنگ را با استفاده از Spark Streaming شامل کار با استریمینگ ساختاریافته و یکپارچه‌سازی با Kafka پردازش کنید.
بهینه‌سازی اپلیکیشن های اسپارک: با درک مدل‌های اجرایی، DAGs، عملیات‌های shuffle و مدیریت حافظه، اپلیکیشن های Spark را برای عملکرد بهینه تنظیم کنید.
استفاده از ویژگی‌های پیشرفته اسپارک: از عملیات‌های پیشرفته DataFrame، شامل joins، تجمیع‌ها و توابع پنجره‌ای، برای تبدیل‌های پیچیده داده استفاده کنید.
بررسی در جزئیات داخلی اسپارک: درک عمیقی از مدل اجرایی Spark ،Catalyst Optimizer و تکنیک‌هایی مانند Broadcasting و Partitioning به دست آورید.
یادگیری مبانی Spark MLlib: پایپ‌لاین‌های یادگیری ماشین را با استفاده از Spark MLlib بسازید و الگوریتم‌هایی مانند رگرسیون خطی و رگرسیون لجستیک را اعمال کنید.
توسعه اپلیکیشن های استریمینگ بلادرنگ: استریمینگ حالت‌مند را پیاده‌سازی کنید، داده‌ دیرهنگام را مدیریت کنید و تحمل خطا را با Checkpointing در Spark Streaming مدیریت کنید.
کار بر روی پروژه‌های پایانی: یک پایپ‌لاین داده کامل را طراحی و پیاده‌سازی کنید، که پردازش داده‌ دسته‌ای و استریمینگ را با یادگیری ماشین یکپارچه کند.
آماده شدن برای نقش‌های صنعتی: Spark را در موارد استفاده واقعی به کار ببرید، رزومه خود را با مهارت‌های Spark بهبود بخشید، برای مصاحبه‌های فنی در مهندسی داده و یادگیری ماشین آماده شوید.

پیش نیازهای دوره

اشتیاق و اراده برای تأثیرگذاری در جهان!

توضیحات دوره

به دوره "Apache Spark و PySpark برای مهندسی داده و کلان‌داده" توسط Uplatz خوش آمدید. ما خوشحالیم که شما را در این سفر یادگیری همراهی می‌کنیم!

Apache Spark مانند یک موتور فوق‌العاده کارآمد برای پردازش حجم عظیمی از داده است. تصور کنید این یک ابزار قدرتمند است که می‌تواند اطلاعاتی را مدیریت کند که برای یک کامپیوتر واحد بسیار بزرگ است. اسپارک این کار را با توزیع بار کاری در سراسر خوشه‌ای از کامپیوترها انجام می‌دهد و کل فرآیند را بسیار سریع‌تر می‌کند.

Spark و PySpark راهی قدرتمند و کارآمد برای پردازش و تحلیل مجموعه‌های داده بزرگ فراهم می‌کنند، که آن‌ها را به ابزارهایی ضروری برای دانشمندان داده، مهندسان، و هر کسی که با کلان‌داده کار می‌کند، تبدیل کرده است.

ویژگی‌های کلیدی که اسپارک را خاص می‌کنند:

سرعت: اسپارک می‌تواند داده‌ را به شکل فوق‌العاده‌ای سریع پردازش کند، حتی Petabytes را، زیرا بار کاری را توزیع می‌کند و بخش زیادی از پردازش را در حافظه انجام می‌دهد.
سهولت استفاده: اسپارک APIs ساده‌ای را در زبان‌هایی مانند پایتون، جاوا، اسکالا و R ارائه می‌دهد که آن را برای طیف وسیعی از توسعه‌دهندگان قابل دسترس می‌سازد.
تطبیق‌پذیری: اسپارک می‌تواند انواع مختلفی از تسک های پردازش داده را مدیریت کند، از جمله:
پردازش دسته‌ای: تحلیل حجم وسیعی از مجموعه‌های داده به صورت یکجا
استریمینگ بلادرنگ: پردازش داده به محض ورود، مانند فیدهای شبکه‌های اجتماعی یا داده‌ حسگرها
یادگیری ماشین: ساخت و آموزش مدل‌های هوش مصنوعی
پردازش گراف: تحلیل روابط بین نقاط داده، مانند آنچه در شبکه‌های اجتماعی دیده می‌شود.

PySpark به طور خاص برای کاربران پایتون طراحی شده که می‌خواهند از قدرت اسپارک استفاده کنند. در اصل، PySpark یک API پایتون برای اسپارک است که به شما امکان می‌دهد اپلیکیشن های اسپارک را با استفاده از کدهای آشنای پایتون بنویسید.

PySpark چگونه ارزش‌آفرینی می‌کند:

رابط کاربری پایتونیک: PySpark به شما امکان می‌دهد با استفاده از سینتکس و کتابخانه‌های پایتون با اسپارک تعامل داشته باشید، که کار با کلان‌داده را برای توسعه‌دهندگان پایتون آسان‌تر می‌کند.
یکپارچگی با اکوسیستم پایتون: می‌توانید PySpark را به راحتی با سایر ابزارها و کتابخانه‌های پایتون، مانند Pandas و NumPy، برای دستکاری و تحلیل داده‌ یکپارچه کنید.
پشتیبانی جامعه: PySpark دارای یک جامعه بزرگ و فعال است که منابع، آموزش‌ها و پشتیبانی فراوانی را برای کاربران فراهم می‌کند.

برنامه درسی دوره Apache Spark و PySpark برای مهندسی داده و کلان‌داده

این دوره برای ارائه درکی جامع از اسپارک و PySpark، از مفاهیم اولیه تا پیاده‌سازی‌های پیشرفته، طراحی شده است تا شما را به خوبی برای مدیریت تحلیل داده‌ در مقیاس بزرگ در دنیای واقعی آماده کند. این دوره شامل تعادلی از تئوری، تمرین عملی و کار پروژه است.

آشنایی با Apache Spark

آشنایی با کلان‌داده و Apache Spark، بررسی کلان‌داده
تکامل اسپارک: از Hadoop تا Spark
بررسی معماری اسپارک
کامپوننت های کلیدی اسپارک: RDDs، DataFrames و Datasets

نصب و راه‌اندازی

راه‌اندازی اسپارک در حالت محلی
آشنایی با Spark Shell (Scala و Python)

مبانی PySpark

آشنایی با PySpark: API پایتون برای اسپارک
نصب و پیکربندی PySpark
نوشتن و اجرای اولین برنامه PySpark شما

درک RDDs (مجموعه‌های داده توزیع‌شده مقاوم)

مفاهیم RDD: ایجاد، تبدیل‌ها و عملیات‌ها
عملیات‌های RDD از جمله: Map ،Filter ،Reduce ،GroupBy و غیره
پایداری و کش کردن RDDs

آشنایی با SparkContext و SparkSession

SparkContext در مقابل SparkSession: نقش‌ها و مسئولیت‌ها
ایجاد و مدیریت SparkSessionها در PySpark

کار با DataFrames و SparkSQL

آشنایی با DataFrames
درک DataFrames از جمله: Schema ،Rows و Columns
ایجاد DataFrames از منابع داده مختلف (CSV ،JSON ،Parquet و غیره)
عملیات‌های اولیه DataFrame مانند: Select ،Filter ،GroupBy و غیره

عملیات‌های پیشرفته DataFrame

Joins ،Aggregations و توابع پنجره‌ای
مدیریت داده‌ گم‌شده و پاکسازی داده‌ در PySpark
بهینه‌سازی عملیات‌های DataFrame

آشنایی با SparkSQL

مبانی SparkSQL: اجرای کوئری‌های SQL بر روی DataFrames
استفاده همزمان از SQL و DataFrame API
ایجاد و مدیریت ویوهای موقت و ویوهای سراسری

منابع و فرمت‌های داده

کار با فرمت‌های فایل مختلف: Parquet ،ORC ،Avro و غیره
خواندن و نوشتن داده‌ در فرمت‌های مختلف
پارتیشن‌بندی و باکتینگ داده

جلسه عملی: ساخت یک پایپ‌لاین داده

طراحی و پیاده‌سازی یک پایپ‌لاین دریافت داده
انجام تبدیل‌ها و تجمیع‌های داده

آشنایی با Spark Streaming

بررسی پردازش داده بلادرنگ
آشنایی با Spark Streaming: معماری و مبانی

مفاهیم پیشرفته و بهینه‌سازی اسپارک

درک جزئیات داخلی اسپارک
مدل اجرایی اسپارک: Jobs ،Stages و Tasks
DAG (گراف جهت‌دار بدون چرخه) و Catalyst Optimizer
درک عملیات‌های Shuffle

تنظیم عملکرد و بهینه‌سازی

آشنایی با پیکربندی‌ها و پارامترهای اسپارک
مدیریت حافظه و جمع‌آوری زباله در اسپارک
تکنیک‌های تنظیم عملکرد: کش کردن، پارتیشن‌بندی و Broadcasting

کار با Datasets

آشنایی با Spark Datasets مانند: Type Safety و عملکرد
تبدیل بین RDDs ،DataFrames و Datasets

SparkSQL پیشرفته

تکنیک‌های بهینه‌سازی کوئری در SparkSQL
UDFs (توابع تعریف‌شده توسط کاربر) و UDAFs (توابع تجمیعی تعریف‌شده توسط کاربر)
استفاده از توابع SQL در DataFrames

آشنایی با Spark MLlib

بررسی Spark MLlib: یادگیری ماشین با اسپارک
کار با پایپ‌لاین‌های یادگیری ماشین: Transformers و Estimators
الگوریتم‌های اولیه یادگیری ماشین: رگرسیون خطی، رگرسیون لجستیک و غیره

جلسه عملی: یادگیری ماشین با Spark MLlib

پیاده‌سازی یک مدل یادگیری ماشین در PySpark
تنظیم هایپرپارامترها و ارزیابی مدل

تمرینات عملی و کار پروژه

تکنیک‌های بهینه‌سازی در عمل
گسترش مینی‌پروژه با MLlib

پردازش داده بلادرنگ و استریمینگ پیشرفته

مفاهیم پیشرفته Spark Streaming
Structured Streaming: مدل پردازش پیوسته
عملیات‌های پنجره‌ای و استریمینگ حالت‌مند
مدیریت داده‌ دیرهنگام و پردازش زمان رویداد

یکپارچگی با Kafka

آشنایی با Apache Kafka: مبانی و موارد استفاده
یکپارچه‌سازی اسپارک با Kafka برای دریافت داده بلادرنگ
پردازش داده‌ استریمینگ از Kafka در PySpark

تحمل خطا و Checkpointing

اطمینان از تحمل خطا در اپلیکیشن های استریمینگ
پیاده‌سازی Checkpointing و مدیریت وضعیت
مدیریت خطاها و بازیابی اپلیکیشن های استریمینگ

Spark Streaming در محیط عملیاتی

بهترین شیوه‌ها برای استقرار اپلیکیشن های Spark Streaming
نظارت و عیب‌یابی وظایف استریمینگ
مقیاس‌گذاری اپلیکیشن های Spark Streaming

جلسه عملی: پایپ‌لاین پردازش داده بلادرنگ

طراحی و پیاده‌سازی یک پایپ‌لاین داده بلادرنگ
کار با داده‌ استریمینگ از منابع متعدد

پروژه پایانی - ساخت یک پایپ‌لاین داده End-to-End

مقدمه پروژه
بررسی پروژه پایانی: پایپ‌لاین کلان‌داده End-to-End
تعریف صورت مسئله و منابع داده

دریافت و پیش‌پردازش داده

طراحی پایپ‌لاین‌های دریافت داده برای داده‌ دسته‌ای و استریمینگ
پیاده‌سازی گردش های کاری پاکسازی و تبدیل داده

ذخیره‌سازی و مدیریت داده

ذخیره‌سازی داده‌ پردازش‌شده در HDFS ،Hive یا سایر ذخیره‌گاه‌های داده
مدیریت پارتیشن‌ها و باکت‌های داده برای عملکرد

تحلیل داده و یادگیری ماشین

انجام تحلیل اکتشافی داده (EDA) بر روی داده‌ پردازش‌شده
ساخت و استقرار مدل‌های یادگیری ماشین

پردازش داده بلادرنگ

پیاده‌سازی پردازش داده بلادرنگ با Structured Streaming
یکپارچه‌سازی داده استریمینگ با مدل‌های یادگیری ماشین

تنظیم عملکرد و بهینه‌سازی

بهینه‌سازی کل پایپ‌لاین داده برای عملکرد
اطمینان از مقیاس‌پذیری و تحمل خطا

موارد استفاده صنعتی و آمادگی شغلی

موارد استفاده صنعتی اسپارک و PySpark
بحث در مورد کاربردهای دنیای واقعی اسپارک در صنایع مختلف
مطالعات موردی در مورد تحلیل کلان‌داده با استفاده از اسپارک

آمادگی برای مصاحبه و ساخت رزومه

آماده شدن برای مصاحبه‌های فنی در مورد اسپارک و PySpark
ساخت یک رزومه قوی با مهارت‌های کلان‌داده

آمادگی پروژه نهایی

ارائه پروژه پایانی برای رزومه و کمک به دستورالعمل‌ها

یادگیری اسپارک و PySpark مزایای متعددی هم برای مجموعه مهارت‌های شما و هم برای چشم‌انداز شغلی‌ شما دارد. با یادگیری اسپارک و PySpark، مهارت‌های ارزشمندی را به دست می‌آورید که در صنایع مختلف تقاضای بالایی دارند. این دانش می‌تواند به فرصت‌های شغلی هیجان‌انگیز، افزایش پتانسیل درآمد و توانایی مقابله با مشکلات چالش‌برانگیز داده در دنیای امروزی داده محور منجر شود.

مزایای یادگیری اسپارک و PySpark

مهارت با تقاضای بالا: اسپارک و PySpark از جمله پرتقاضاترین مهارت‌ها در صنعت کلان‌داده هستند. شرکت‌ها در بخش‌های مختلف به این فناوری‌ها برای پردازش و تحلیل داده‌ خود متکی هستند، که تقاضای زیادی برای متخصصان با تجربه در این زمینه ایجاد می‌کند.
افزایش پتانسیل درآمد: به دلیل تقاضای بالا و ماهیت تخصصی مهارت‌های اسپارک و PySpark، متخصصانی که در این فناوری‌ها مهارت دارند، اغلب حقوق بالاتری نسبت به کسانی که با ابزارهای پردازش داده سنتی کار می‌کنند، دریافت می‌کنند.
پیشرفت شغلی: تسلط به اسپارک و PySpark می‌تواند درها را به روی فرصت‌های پیشرفت شغلی مختلفی باز کند، مانند تبدیل شدن به مهندس داده، توسعه‌دهنده کلان‌داده، دانشمند داده یا مهندس یادگیری ماشین
قابلیت‌های پیشرفته پردازش داده: اسپارک و PySpark به شما امکان می‌دهند مجموعه‌های داده عظیم را به طور کارآمد پردازش کنید، که شما را قادر می‌سازد با چالش‌های پیچیده داده مقابله کرده و بینش‌های ارزشمندی را استخراج کنید که با ابزارهای سنتی غیرممکن خواهد بود.
بهبود کارایی و بهره‌وری: پردازش در حافظه اسپارک و موتور اجرایی بهینه‌شده آن، تسک های پردازش داده را به طور قابل توجهی سرعت می‌بخشد و منجر به بهبود کارایی و بهره‌وری در کار شما می‌شود.
تطبیق‌پذیری و انعطاف‌پذیری: اسپارک و PySpark می‌توانند تسک های مختلف پردازش داده، از جمله پردازش دسته‌ای، استریمینگ بلادرنگ، یادگیری ماشین و پردازش گراف را انجام دهند، که شما را به یک متخصص داده همه‌کاره تبدیل می‌کند.
پشتیبانی قوی جامعه: اسپارک و PySpark دارای جوامع بزرگ و فعالی هستند که منابع، آموزش‌ها و پشتیبانی فراوانی را برای کمک به یادگیری و رشد شما فراهم می‌کنند.

دامنه شغلی

مهندس داده: طراحی، ساخت و نگهداری زیرساخت‌ها برای جمع‌آوری، ذخیره‌سازی و پردازش مجموعه‌های داده بزرگ با استفاده از اسپارک و PySpark
توسعه‌دهنده کلان‌داده: توسعه و استقرار اپلیکیشن های اسپارک برای پردازش و تحلیل داده‌ برای نیازهای مختلف کسب‌وکار
دانشمند داده: استفاده از PySpark برای انجام تحلیل داده، یادگیری ماشین و مدل‌سازی آماری بر روی مجموعه‌های داده بزرگ
مهندس یادگیری ماشین: ساخت و استقرار مدل‌های یادگیری ماشین با استفاده از PySpark برای تسک هایی مانند طبقه‌بندی، پیش‌بینی و توصیه
تحلیلگر داده: تحلیل مجموعه‌های داده بزرگ با استفاده از PySpark برای شناسایی روندها، الگوها و بینش‌هایی که می‌توانند تصمیمات کسب‌وکار را هدایت کنند.
تحلیلگر هوش تجاری: استفاده از اسپارک و PySpark برای استخراج و تحلیل داده از منابع مختلف به منظور تولید گزارش‌ها و داشبوردهای هوش تجاری

این دوره برای چه کسانی مناسب است؟

مهندسان داده: متخصصانی که به دنبال ساخت پایپ‌لاین‌های کلان‌داده مقیاس‌پذیر با استفاده از Apache Spark و PySpark هستند.
مهندسان یادگیری ماشین: مهندسانی که قصد دارند فریمورک‌های کلان‌داده را در گردش‌کارهای یادگیری ماشین برای آموزش و پیش‌بینی مدل توزیع‌شده یکپارچه کنند.
هر کسی که به دنبال شغلی در مهندسی داده، کلان‌داده، علم داده و یادگیری ماشین است.
دانشمندان داده: کسانی که به دنبال پردازش و تحلیل کارآمد مجموعه‌های داده بزرگ با استفاده از قابلیت‌های پیشرفته اسپارک هستند.
تازه‌کاران و مبتدیان علاقه‌مند به مهندسی داده، یادگیری ماشین، تحقیق در زمینه هوش مصنوعی و علم داده
توسعه‌دهندگان ETL: توسعه‌دهندگانی که علاقه‌مند به گذار از ابزارهای سنتی ETL به سیستم‌های مدرن و توزیع‌شده پردازش کلان‌داده هستند.
معماران راه‌حل: متخصصانی که راه‌حل‌های در سطح سازمانی را طراحی می‌کنند و به تخصص در فریمورک‌های مقیاس‌پذیر کلان‌داده نیاز دارند.
معماران داده: کارشناسانی که مسئول طراحی سیستم‌های داده هستند و می‌خواهند اسپارک را برای عملکرد و مقیاس‌پذیری در معماری خود بگنجانند.
مهندسان نرم‌افزار: توسعه‌دهندگانی که به سمت اپلیکیشن‌های داده‌محور یا نقش‌های مهندسی کلان‌داده حرکت می‌کنند.
متخصصان فناوری اطلاعات: افراد عمومی که به دنبال گسترش دانش خود در زمینه محاسبات توزیع‌شده و فریمورک‌های کلان‌داده هستند.
دانشجویان و فارغ‌التحصیلان جدید: مهندسان، دانشمندان یا تحلیلگران داده مشتاق با دانش برنامه‌نویسی اولیه، که مشتاق ورود به حوزه کلان‌داده هستند.
مدیران پایگاه داده: مدیران پایگاه داده که قصد دارند پردازش مدرن کلان‌داده را برای تکمیل تخصص پایگاه داده خود درک کنند.
مدیران فنی و معماران: رهبرانی که برای مدیریت مؤثر تیم‌ها و پروژه‌ها به درک اولیه از اسپارک و PySpark نیاز دارند.
مهندسان ابری: مهندسانی که گردش های کاری داده را در پلتفرم‌های ابری مانند AWS ،Azure یا Google Cloud توسعه می‌دهند.