هوش مصنوعی مولد برای مهندسی داده
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- از مدل های زبانی بزرگ برای ایجاد کد پایتون برای پیاده سازی پایپ لاین استفاده کنید.
- از LLM ها برای حل چالش های بارگذاری داده، تبدیل داده و ارزیابی کیفیت داده استفاده کنید.
- ایجاد پایگاه های داده و مدل های داده تحلیلی با استفاده از هوش مصنوعی مولد
- اسکریپت های پایتون، SQL و Bash را برای اجرای تسک های رایج مهندسی داده ایجاد کنید.
توضیحات دوره:
ابزارهای هوش مصنوعی مولد مانند ChatGPT ،Claude و Bard در حال تبدیل کردن مهندسی داده به مقولهای قابل دسترستر و کارآمدتر هستند.
- اگر با صفحات گسترده یا ابزارهای هوش تجاری کار میکنید اما با پایتون یا SQL چندان آشنایی ندارید، هوش مصنوعی مولد میتواند به شما در تحلیل داده و ساخت پایپ لاین های داده و فرآیندهای ETL و ELT کمک کند.
- اگر مهندس داده هستید، GenAI میتواند به شما کمک کند تا تلاش خود را بر روی دامنههای مسئله و طراحی معماری داده متمرکز کنید و زمان کمتری را صرف نوشتن کدی کنید که میتواند توسط ماشین تولید شود.
هوش مصنوعی مولد و مدلهای زبان بزرگ (LLMs) جایگزین مهندسان داده یا تحلیلگران داده نخواهند شد، اما کسانی که میدانند چگونه از این ابزارهای هوش مصنوعی استفاده کنند، قادر خواهند بود پایپ لاین داده کارآمدتر و قابل اعتمادتر بسازند. آنها همچنین به ابزاری دسترسی خواهند داشت که میتواند به آن ها در توسعه مهارتهای پایتون، SQL و مدلسازی داده کمک کند و انواع مختلفی از کدهای کاربردی و کمک در تشخیص ارور و فرآیندهای عیبیابی که به طور غیرمنتظره عمل نمیکنند، ارائه دهد.
یادگیری تکنیکهای مهندسی داده و ابزارهای مهندسی داده
در این دوره، شما یاد خواهید گرفت که چگونه مشکلات مهندسی داده را به مجموعهای از وظایف تبدیل کنید که میتوان آنها را با استفاده از پایتون، SQL و اسکریپتهای خط فرمان تولید شده توسط مدل زبان بزرگ (LLM) خودکار کنید.
پرامپت یک هوش مصنوعی برای "تولید یک پایپ لاین داده برای انجام Y، X و Z" احتمالاً نتایج مورد انتظاری را به شما نخواهد داد. LLMها ابزارهای قدرتمندی هستند، اما دانشمند نیستند. مانند هر ابزاری، ما باید بدانیم که هر ابزار چه کارایی دارد و چگونه میتوانیم از قابلیتها برای پاسخ به نیازهای خود استفاده کنیم.
این دوره به شما نشان میدهد که چگونه به یک مسئله مهندسی داده فکر کنید، به تدریج کامپوننت های یک راه حل را بسازید و این کامپوننت ها را به پایپ لاین های داده کاربردی ترکیب کنید.
این دوره به چندین موضوع تقسیم شده است که مهارتهای بنیادی مورد نیاز برای آغاز کار در مهندسی داده با استفاده از GenAI را پوشش میدهد، از جمله:
- مقدمهای بر مدلهای زبان بزرگ، مدلهای پایه و سایر موضوعات مرتبط با هوش مصنوعی در زمینه مهندسی داده. این دوره از Claude AI از Anthropic استفاده میکند که یک مدل زبانی بزرگ است و به خوبی برای تولید کد مهندسی داده مناسب بوده و استفاده از آن رایگان است.
- کار با فایلهای CSV و JSON
- کیفیت داده و پاکسازی داده، شامل آمار و مصورسازی ها
- فرآیندهای استخراج، تغییر و بارگذاری (ETL) و استخراج، بارگذاری و تغییر (ELT)
- پایگاههای داده رابطهای و NoSQL
- مدلسازی داده با استفاده از الگوهای مدلسازی ابعادی
- کار با داده JSON در پایگاههای داده رابطهای مانند PostgreSQL
- درک کامپوننت های پیشرفتهتر استک داده مدرن، شامل Apache Airflow ،Apache Spark Great Expectations و dbt
این دوره با سادهترین وظایف مهندسی داده یعنی کار با فایلها آغاز میشود. شما یاد خواهید گرفت چگونه به سرعت داده را فیلتر کنید و یا تغییر دهید و مشکلات موجود در مجموعههای داده متشکل از فایلهای CSV و JSON را پیدا کنید. همچنین خواهید دید چگونه میتوانیم از مجموعههای داده بزرگ نمونهبرداری کنیم تا بهطور کارآمد با راهحلهای مختلف برای نیازهای مهندسی داده خود آزمایش کنیم. شما یاد خواهید گرفت که چگونه کدی تولید کنید که از ابزارهای خط فرمان مانند awk، ابزاری برای پردازش متن و استخراج داده، و jq، ابزاری برای تجزیه، فیلتر کردن و تغییر دادههای JSON استفاده میکند. اگر با ابزارهایی مانند awk و jq آشنا نیستید، مشکلی نیست. در این دوره، شما یاد خواهید گرفت که چگونه آنچه را که در یک راه حل میخواهید توصیف کنید تا LLM بتواند ابزاری مناسب برای انجام آن جاب انتخاب کند.
کیفیت داده یکی از مهمترین مسائل در هر پروژه مهندسی داده است. خوشبختانه، با GenAI و درک پایهای از بررسیهای کیفیتی داده، میتوانید به سرعت اسکریپتهایی برای بررسی مشکلات رایج کیفیت داده تولید کنید و تغییراتی بر روی داده برای اصلاح آن مشکلات اعمال نمایید. آمار و مصورسازی ها ابزارهای مهمی برای تضمین کیفیت داده هستند. در این دوره، شما یاد خواهید گرفت که چگونه از آمار و مصورسازی های پایه بهرهبرداری کنید تا به کیفیت داده و اکتشاف داده کمک کنید. و از آنجایی که هوش مصنوعی مولد برای تولید کد استفاده میشود، میتوانید زمان بیشتری را به یادگیری آمار، مصورسازی ها و نحوهی اعمال آنها در دامنه مشکل خود اختصاص دهید و زمان کمتری را صرف یافتن خطاهای سینتکس یا تعمیر اشکالات منطقی در کد خود کنید.
پایگاههای داده اساس بسیاری از اپلیکیشن ها و پلتفرمهای تحلیلی داده هستند. شما با پایگاههای داده رابطهای و همچنین پایگاههای داده NoSQL و زمان مناسب برای استفاده از آنها آشنا خواهید شد. پایگاههای داده سیستمهای پیچیدهای هستند که نیاز دارند توصیف کنیم چگونه میخواهیم داده خود را ساماندهی کنیم. این فرآیند به عنوان مدلسازی داده شناخته میشود. این دوره مدلسازی داده را با تمرکز بر مدلسازی ابعادی که یک الگوی مدل دادهای متداول در تحلیل داده است، معرفی خواهد کرد. همچنین یاد خواهید گرفت چگونه کد SQL برای پیادهسازی مدلهای ابعادی تولید کنید، داده را به پایگاه داده خود بارگذاری کنید و داده را پس از بارگذاری، کوئری و تحلیل کنید.
دوره با توضیح ابزارهای پیشرفتهتر مهندسی داده پایان مییابد، از جمله Apache Airflow برای ارکستراسیون پایپ لاین داده، Apache Spark برای تحلیل مقیاسپذیر و یادگیری ماشین، Great Expectations برای کنترل کیفیت داده و dbt برای تغییر داده. این ابزارها در مهندسی داده بهطور گستردهای استفاده میشوند اما برای استفاده از آنها مهارتهای برنامهنویسی لازم بود. با هوش مصنوعی مولد، اکنون آنها برای کسانی که میدانند چگونه از LLMهایی مانند Claude ،Bard و ChatGPT استفاده کنند، قابل دسترستر شدهاند.
اکنون زمان مناسبی برای تبدیل شدن به یک مهندس داده است زیرا تقاضا برای مهارتهای مهندسی داده بالا است و اکنون ابزارهایی در دسترس داریم که به ما این امکان را میدهند تا بر روی مسائلی که در حال حل آنها هستیم تمرکز کنیم و در عین حال سرعت ایجاد پایپ لاین های داده مقیاسپذیر و قابل اعتماد را افزایش دهیم.
این دوره برای چه کسانی مناسب است؟
- افرادی که با داده کار می کنند و می خواهند اسکریپت های دستکاری داده را سریعتر بسازند و پایپ لاین داده پیچیده تری را توسعه دهند.
هوش مصنوعی مولد برای مهندسی داده
-
مقدمه 04:10
-
بررسی دوره 04:03
-
مهندسی داده، تحلیل داده و علم داده 06:05
-
هوش مصنوعی مولد و مدلهای زبان بزرگ (LLMs) 08:14
-
آزمون مفاهیم کلیدی GenAI None
-
فایلهای CSV و JSON 07:17
-
ابزارهای خط فرمان برای کار با فایلها 08:03
-
فیلتر کردن سطرهای یک فایل CSV 09:06
-
ترکیب فرمان ها در یک اسکریپت شل 07:07
-
آزمون فایل CSV None
-
تکلیف عملی: فیلتر کردن داده در یک فایل CSV با استفاده از اسکریپت bash None
-
نمونهبرداری با پایتون 06:17
-
تغییر یک اسکریپت شل 05:14
-
زمانبندی جاب ها با Cron 02:49
-
مثال زمانبندی جاب با Cron 06:30
-
آزمون شل اسکریپت None
-
کار با فایلهای JSON 06:56
-
نصب jq 01:30
-
فیلتر کردن فایلهای JSON با jq 04:03
-
بارگذاری JSON به Python 04:25
-
آزمون JSON None
-
بررسی کیفیت داده 06:05
-
داده فروش 02:55
-
مقادیر گمشده در فایلهای داده 08:31
-
افزودن مستندات به اسکریپتها 04:19
-
بررسیهای بازه 07:36
-
کار با تاریخها و زمانها 04:18
-
بررسی فرمت تاریخ و زمان 08:44
-
مصورسازی ها برای کیفیت داده 11:46
-
آزمون کیفیت داده None
-
تکلیف عملی: بررسی داده پرواز مسافران با کدهای فرودگاه نامعتبر None
-
کار با Pandas 04:49
-
آمار با استفاده از DataFrameها 08:06
-
تولید داده مصنوعی 04:02
-
تکلیف عملی: بارگذاری JSON به یک DataFrame Pandas None
-
اسکیماهای JSON برای اعتبارسنجی داده - بخش 1 10:20
-
اسکیماهای JSON برای اعتبارسنجی داده - بخش 2 07:52
-
آزمون Pandas و اسکیمای JSON None
-
پایگاههای داده رابطهای 07:44
-
پایگاههای داده NoSQL 07:18
-
PostgreSQL 09:46
-
نصب PostgreSQL 05:30
-
ایجاد اسکیماهای PostgreSQL 04:37
-
ایجاد جداول در PostgreSQL 07:58
-
آزمون پایگاه داده None
-
تکلیف عملی: ایجاد جدولی برای زمانبندیهای اتوبوس None
-
مدلسازی ابعادی 15:38
-
بارگذاری دادههای فروش به جداول مرحلهای 12:38
-
بارگذاری دادههای بعدی به جداول مرحلهای 08:56
-
ایجاد بعد مکان 10:35
-
ایجاد بعد محصولات 04:49
-
ایجاد بعد تاریخ 06:26
-
آزمون مدل ابعادی - بخش 1 None
-
ایجاد جدول حقایق فروش 14:18
-
آمادهسازی داده برای تجمیع 01:30
-
تجمیع داده مرحلهای 05:29
-
بارگذاری جدول حقایق فروش 05:29
-
تولید کوئری های SQL برای یک مدل ابعادی 05:45
-
آزمون مدلسازی ابعادی - بخش 2 None
-
JSON در PostgreSQL 06:19
-
ایجاد جدولی با یک ستون JSON در PostgreSQL 07:42
-
بارگذاری داده JSON در PostgreSQL 11:59
-
کوئری داده JSON در PostgreSQL 02:12
-
آزمون JSON در PostgreSQL None
-
چه چیزی را بعداً بیاموزید؟ 01:32
-
Apache Airflow برای ارکستراسیون 04:48
-
Apache Spark برای ETL و ELT و تحلیل 05:27
-
انتظارات بزرگ برای کنترل کیفیت داده 04:53
-
dbt برای تغییر داده با SQL 03:58
-
نتیجه گیری 03:04
مشخصات آموزش
هوش مصنوعی مولد برای مهندسی داده
- تاریخ به روز رسانی: 1404/06/14
- سطح دوره:همه سطوح
- تعداد درس:70
- مدت زمان :06:07:32
- حجم :2.8GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy