دوره آموزشی
آموزش های یودمی
دوبله زبان فارسی

هوش مصنوعی مولد برای مهندسی داده

هوش مصنوعی مولد برای مهندسی داده

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

  • از مدل های زبانی بزرگ برای ایجاد کد پایتون برای پیاده سازی پایپ لاین استفاده کنید.
  • از LLM ها برای حل چالش های بارگذاری داده، تبدیل داده و ارزیابی کیفیت داده استفاده کنید.
  • ایجاد پایگاه های داده و مدل های داده تحلیلی با استفاده از هوش مصنوعی مولد
  • اسکریپت های پایتون، SQL و Bash را برای اجرای تسک های رایج مهندسی داده ایجاد کنید.

توضیحات دوره:

ابزارهای هوش مصنوعی مولد مانند ChatGPT ،Claude و Bard در حال تبدیل کردن مهندسی داده به مقوله‌ای قابل دسترس‌تر و کارآمدتر هستند.

  • اگر با صفحات گسترده یا ابزارهای هوش تجاری کار می‌کنید اما با پایتون یا SQL چندان آشنایی ندارید، هوش مصنوعی مولد می‌تواند به شما در تحلیل داده و ساخت پایپ لاین های داده و فرآیندهای ETL و ELT کمک کند.
  • اگر مهندس داده هستید، GenAI می‌تواند به شما کمک کند تا تلاش خود را بر روی دامنه‌های مسئله و طراحی معماری داده متمرکز کنید و زمان کمتری را صرف نوشتن کدی کنید که می‌تواند توسط ماشین تولید شود.

هوش مصنوعی مولد و مدل‌های زبان بزرگ (LLMs) جایگزین مهندسان داده یا تحلیلگران داده نخواهند شد، اما کسانی که می‌دانند چگونه از این ابزارهای هوش مصنوعی استفاده کنند، قادر خواهند بود پایپ لاین داده کارآمدتر و قابل اعتمادتر بسازند. آن‌ها همچنین به ابزاری دسترسی خواهند داشت که می‌تواند به آن ها در توسعه مهارت‌های پایتون، SQL و مدل‌سازی داده کمک کند و انواع مختلفی از کدهای کاربردی و کمک در تشخیص ارور و فرآیندهای عیب‌یابی که به طور غیرمنتظره عمل نمی‌کنند، ارائه دهد.

یادگیری تکنیک‌های مهندسی داده و ابزارهای مهندسی داده

در این دوره، شما یاد خواهید گرفت که چگونه مشکلات مهندسی داده را به مجموعه‌ای از وظایف تبدیل کنید که می‌توان آن‌ها را با استفاده از پایتون، SQL و اسکریپت‌های خط فرمان تولید شده توسط مدل زبان بزرگ (LLM) خودکار کنید.

پرامپت یک هوش مصنوعی برای "تولید یک پایپ لاین داده برای انجام Y، X و Z" احتمالاً نتایج مورد انتظاری را به شما نخواهد داد. LLMها ابزارهای قدرتمندی هستند، اما دانشمند نیستند. مانند هر ابزاری، ما باید بدانیم که هر ابزار چه کارایی دارد و چگونه می‌توانیم از قابلیت‌ها برای پاسخ به نیازهای خود استفاده کنیم.

این دوره به شما نشان می‌دهد که چگونه به یک مسئله مهندسی داده فکر کنید، به تدریج کامپوننت های یک راه حل را بسازید و این کامپوننت ها را به پایپ لاین های داده کاربردی ترکیب کنید.

این دوره به چندین موضوع تقسیم شده است که مهارت‌های بنیادی مورد نیاز برای آغاز کار در مهندسی داده با استفاده از GenAI را پوشش می‌دهد، از جمله:

  • مقدمه‌ای بر مدل‌های زبان بزرگ، مدل‌های پایه و سایر موضوعات مرتبط با هوش مصنوعی در زمینه مهندسی داده. این دوره از Claude AI از Anthropic استفاده می‌کند که یک مدل زبانی بزرگ است و به خوبی برای تولید کد مهندسی داده مناسب بوده و استفاده از آن رایگان است.
  • کار با فایل‌های CSV و JSON
  • کیفیت داده و پاک‌سازی داده، شامل آمار و مصورسازی ها
  • فرآیندهای استخراج، تغییر و بارگذاری (ETL) و استخراج، بارگذاری و تغییر (ELT)
  • پایگاه‌های داده رابطه‌ای و NoSQL
  • مدل‌سازی داده با استفاده از الگوهای مدل‌سازی ابعادی
  • کار با داده JSON در پایگاه‌های داده رابطه‌ای مانند PostgreSQL
  • درک کامپوننت های پیشرفته‌تر استک داده مدرن، شامل Apache Airflow ،Apache Spark Great Expectations و dbt

این دوره با ساده‌ترین وظایف مهندسی داده یعنی کار با فایل‌ها آغاز می‌شود. شما یاد خواهید گرفت چگونه به سرعت داده را فیلتر کنید و یا تغییر دهید و مشکلات موجود در مجموعه‌های داده متشکل از فایل‌های CSV و JSON را پیدا کنید. همچنین خواهید دید چگونه می‌توانیم از مجموعه‌های داده بزرگ نمونه‌برداری کنیم تا به‌طور کارآمد با راه‌حل‌های مختلف برای نیازهای مهندسی داده خود آزمایش کنیم. شما یاد خواهید گرفت که چگونه کدی تولید کنید که از ابزارهای خط فرمان مانند awk، ابزاری برای پردازش متن و استخراج داده، و jq، ابزاری برای تجزیه، فیلتر کردن و تغییر داده‌های JSON استفاده می‌کند. اگر با ابزارهایی مانند awk و jq آشنا نیستید، مشکلی نیست. در این دوره، شما یاد خواهید گرفت که چگونه آنچه را که در یک راه حل می‌خواهید توصیف کنید تا LLM بتواند ابزاری مناسب برای انجام آن جاب انتخاب کند.

کیفیت داده یکی از مهم‌ترین مسائل در هر پروژه مهندسی داده است. خوشبختانه، با GenAI و درک پایه‌ای از بررسی‌های کیفیتی داده، می‌توانید به سرعت اسکریپت‌هایی برای بررسی مشکلات رایج کیفیت داده تولید کنید و تغییراتی بر روی داده برای اصلاح آن مشکلات اعمال نمایید. آمار و مصورسازی ها ابزارهای مهمی برای تضمین کیفیت داده هستند. در این دوره، شما یاد خواهید گرفت که چگونه از آمار و مصورسازی های پایه بهره‌برداری کنید تا به کیفیت داده و اکتشاف داده کمک کنید. و از آنجایی که هوش مصنوعی مولد برای تولید کد استفاده می‌شود، می‌توانید زمان بیشتری را به یادگیری آمار، مصورسازی ها و نحوه‌ی اعمال آن‌ها در دامنه مشکل خود اختصاص دهید و زمان کمتری را صرف یافتن خطاهای سینتکس یا تعمیر اشکالات منطقی در کد خود کنید.

پایگاه‌های داده اساس بسیاری از اپلیکیشن ها و پلتفرم‌های تحلیلی داده هستند. شما با پایگاه‌های داده رابطه‌ای و همچنین پایگاه‌های داده NoSQL و زمان مناسب برای استفاده از آن‌ها آشنا خواهید شد. پایگاه‌های داده سیستم‌های پیچیده‌ای هستند که نیاز دارند توصیف کنیم چگونه می‌خواهیم داده خود را ساماندهی کنیم. این فرآیند به عنوان مدل‌سازی داده شناخته می‌شود. این دوره مدل‌سازی داده را با تمرکز بر مدل‌سازی ابعادی که یک الگوی مدل داده‌ای متداول در تحلیل داده است، معرفی خواهد کرد. همچنین یاد خواهید گرفت چگونه کد SQL برای پیاده‌سازی مدل‌های ابعادی تولید کنید، داده را به پایگاه داده خود بارگذاری کنید و داده را پس از بارگذاری، کوئری و تحلیل کنید.

دوره با توضیح ابزارهای پیشرفته‌تر مهندسی داده پایان می‌یابد، از جمله Apache Airflow برای ارکستراسیون پایپ لاین داده، Apache Spark برای تحلیل مقیاس‌پذیر و یادگیری ماشین، Great Expectations برای کنترل کیفیت داده و dbt برای تغییر داده. این ابزارها در مهندسی داده به‌طور گسترده‌ای استفاده می‌شوند اما برای استفاده از آن‌ها مهارت‌های برنامه‌نویسی لازم بود. با هوش مصنوعی مولد، اکنون آن‌ها برای کسانی که می‌دانند چگونه از LLMهایی مانند Claude ،Bard و ChatGPT استفاده کنند، قابل دسترس‌تر شده‌اند.

اکنون زمان مناسبی برای تبدیل شدن به یک مهندس داده است زیرا تقاضا برای مهارت‌های مهندسی داده بالا است و اکنون ابزارهایی در دسترس داریم که به ما این امکان را می‌دهند تا بر روی مسائلی که در حال حل آن‌ها هستیم تمرکز کنیم و در عین حال سرعت ایجاد پایپ لاین های داده مقیاس‌پذیر و قابل اعتماد را افزایش دهیم.

این دوره برای چه کسانی مناسب است؟

  • افرادی که با داده کار می کنند و می خواهند اسکریپت های دستکاری داده را سریعتر بسازند و پایپ لاین داده پیچیده تری را توسعه دهند.

هوش مصنوعی مولد برای مهندسی داده

  • مقدمه 04:10
  • بررسی دوره 04:03
  • مهندسی داده، تحلیل داده و علم داده 06:05
  • هوش مصنوعی مولد و مدل‌های زبان بزرگ (LLMs) 08:14
  • آزمون مفاهیم کلیدی GenAI None
  • فایل‌های CSV و JSON 07:17
  • ابزارهای خط فرمان برای کار با فایل‌ها 08:03
  • فیلتر کردن سطرهای یک فایل CSV 09:06
  • ترکیب فرمان ها در یک اسکریپت شل 07:07
  • آزمون فایل CSV None
  • تکلیف عملی: فیلتر کردن داده در یک فایل CSV با استفاده از اسکریپت bash None
  • نمونه‌برداری با پایتون 06:17
  • تغییر یک اسکریپت شل 05:14
  • زمانبندی جاب ها با Cron 02:49
  • مثال زمانبندی جاب با Cron 06:30
  • آزمون شل اسکریپت None
  • کار با فایل‌های JSON 06:56
  • نصب jq 01:30
  • فیلتر کردن فایل‌های JSON با jq 04:03
  • بارگذاری JSON به Python 04:25
  • آزمون JSON None
  • بررسی کیفیت داده 06:05
  • داده فروش 02:55
  • مقادیر گم‌شده در فایل‌های داده 08:31
  • افزودن مستندات به اسکریپت‌ها 04:19
  • بررسی‌های بازه 07:36
  • کار با تاریخ‌ها و زمان‌ها 04:18
  • بررسی فرمت تاریخ و زمان 08:44
  • مصورسازی ها برای کیفیت داده 11:46
  • آزمون کیفیت داده None
  • تکلیف عملی: بررسی داده پرواز مسافران با کدهای فرودگاه نامعتبر None
  • کار با Pandas 04:49
  • آمار با استفاده از DataFrame‌ها 08:06
  • تولید داده مصنوعی 04:02
  • تکلیف عملی: بارگذاری JSON به یک DataFrame Pandas None
  • اسکیماهای JSON برای اعتبارسنجی داده - بخش 1 10:20
  • اسکیماهای JSON برای اعتبارسنجی داده - بخش 2 07:52
  • آزمون Pandas و اسکیمای JSON None
  • پایگاه‌های داده رابطه‌ای 07:44
  • پایگاه‌های داده NoSQL 07:18
  • PostgreSQL 09:46
  • نصب PostgreSQL 05:30
  • ایجاد اسکیماهای PostgreSQL 04:37
  • ایجاد جداول در PostgreSQL 07:58
  • آزمون پایگاه داده None
  • تکلیف عملی: ایجاد جدولی برای زمان‌بندی‌های اتوبوس None
  • مدل‌سازی ابعادی 15:38
  • بارگذاری داده‌های فروش به جداول مرحله‌ای 12:38
  • بارگذاری داده‌های بعدی به جداول مرحله‌ای 08:56
  • ایجاد بعد مکان 10:35
  • ایجاد بعد محصولات 04:49
  • ایجاد بعد تاریخ 06:26
  • آزمون مدل ابعادی - بخش 1 None
  • ایجاد جدول حقایق فروش 14:18
  • آماده‌سازی داده برای تجمیع 01:30
  • تجمیع داده مرحله‌ای 05:29
  • بارگذاری جدول حقایق فروش 05:29
  • تولید کوئری های SQL برای یک مدل ابعادی 05:45
  • آزمون مدل‌سازی ابعادی - بخش 2 None
  • JSON در PostgreSQL 06:19
  • ایجاد جدولی با یک ستون JSON در PostgreSQL 07:42
  • بارگذاری داده JSON در PostgreSQL 11:59
  • کوئری داده JSON در PostgreSQL 02:12
  • آزمون JSON در PostgreSQL None
  • چه چیزی را بعداً بیاموزید؟ 01:32
  • Apache Airflow برای ارکستراسیون 04:48
  • Apache Spark برای ETL و ELT و تحلیل 05:27
  • انتظارات بزرگ برای کنترل کیفیت داده 04:53
  • dbt برای تغییر داده با SQL 03:58

2,416,000 483,200 تومان

مشخصات آموزش

هوش مصنوعی مولد برای مهندسی داده

  • تاریخ به روز رسانی: 1404/06/14
  • سطح دوره:همه سطوح
  • تعداد درس:70
  • مدت زمان :06:07:32
  • حجم :2.8GB
  • زبان:دوبله زبان فارسی
  • دوره آموزشی:AI Academy

آموزش های مرتبط

The Great Courses
1,889,000 377,800 تومان
  • زمان: 04:47:39
  • تعداد درس: 30
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
9,269,000 1,853,800 تومان
  • زمان: 23:28:00
  • تعداد درس: 170
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
490,000 98,000 تومان
  • زمان: 55:18
  • تعداد درس: 9
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
490,000 98,000 تومان
  • زمان: 48:56
  • تعداد درس: 12
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
2,797,500 559,500 تومان
  • زمان: 07:05:39
  • تعداد درس: 75
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
490,000 98,000 تومان
  • زمان: 58:24
  • تعداد درس: 14
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
717,500 143,500 تومان
  • زمان: 01:49:57
  • تعداد درس: 22
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,296,500 259,300 تومان
  • زمان: 03:17:14
  • تعداد درس: 26
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
7,379,500 1,475,900 تومان
  • زمان: 18:41:14
  • تعداد درس: 133
  • سطح دوره:
  • زبان: دوبله فارسی

آیا سوالی دارید؟

ما به شما کمک خواهیم کرد تا شغل و رشد خود را افزایش دهید.
امروز با ما تماس بگیرید