پیشپردازش دادههای بدون ساختار برای مدلهای زبان و سیستمهای RAG
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- به تکنیکهای پیشپردازش دادههای بدون ساختار برای مدلهای زبان و سیستمهای RAG مسلط شوید.
- دادهها را از انواع سند پیچیده مانند PDF و HTML استخراج و نرمالسازی کنید.
- تحلیل مشابهت معنایی و استخراج متاداده را با استفاده از پایگاههای داده برداری پیادهسازی کنید.
- یک سیستم RAG بسازید تا بهطور دینامیک با دادههای پیشپردازش شده خود تعامل داشته باشید.
توضیحات دوره
ظرفیت کامل دادههای بدون ساختار را با تسلط به تکنیکهای پیشپردازش برای مدلهای زبان و سیستمهای تولید با بازیابی (RAG) کشف کنید. این دوره جامع شما را با مهارتهایی برای آمادهسازی دادههای بدون ساختار برای اپلیکیشن های پیشرفته هوش مصنوعی تجهیز میکند و ورودی با کیفیت بالا را برای بهبود نتایج تضمین میکند. از درک پیچیدگیهای پیشپردازش دادهها تا پروژههای عملی، بینشهای ارزشمندی از فریمورکها و ابزارهای پیشرفته به دست خواهید آورد.
سفر شما با راهاندازی یک محیط توسعه قوی شامل حسابهای API و ادغامهای کلیدی آغاز میشود. سپس به جزئیات پیشپردازش دادههای بدون ساختار میپردازید و چالشهایی مانند نرمالسازی دادهها، تقسیمبندی و استخراج متاداده را بررسی میکنید. با استفاده از فریمورک بدون ساختار بهعنوان راهنما، بهطور مؤثر HTML ،PDF و مستندات PPTX را پیشپردازش میکنید و ساختاردهی بهینه دادهها را تضمین میکنید.
این دوره بر کاربردهای دنیای واقعی تأکید دارد و تجربه عملی با مشابهت معنایی، پایگاههای داده برداری و استراتژیهای جستجوی هیبریدی را ارائه میدهد. شما تکنیکهای پیشرفته تشخیص طرح بندی مستندات را بررسی میکنید و از ابزارهایی مانند Visual Transformers و LangChain برای پیشپردازش مستندات پیچیده و استخراج بینشهای معنادار استفاده میکنید. در نهایت، تمام این مهارتها را در ساخت یک سیستم RAG کاملاً کاربردی به کار میگیرید و تکنیکهای آموختهشده را برای تعامل دینامیک با دادهها یکپارچه میکنید.
این دوره برای مهندسان داده، پزشکان هوش مصنوعی و توسعهدهندگانی که به دنبال بهبود مهارتهای پیشپردازش خود هستند، ایدهآل است. در حالی که آشنایی با Python و استفاده اولیه از APIها کمککننده است، این دوره برای سطح میانه و همچنین افرادی که به دنبال تخصص پیشرفته هستند، طراحی شده است.
پیشپردازش دادههای بدون ساختار برای مدلهای زبان و سیستمهای RAG
-
معرفی و موضوع دوره و پیشنیازها 3:38
-
ساختار دوره 1:08
-
منابع کامل دوره None
-
راهاندازی محیط توسعه - بررسی 1:37
-
راهاندازی حساب API OpenAI و کلید API 6:15
-
راهاندازی حساب بدون ساختار و کلید API رایگان 2:44
-
اجرای آزمایشی فریمورک بدون ساختار 4:06
-
درک عمیق در پیشپردازش داده - بررسی 5:47
-
بررسی پیشپردازش داده برای مدلهای زبان - چرا پیشپردازش داده دشوار است؟ 3:05
-
چالشهای دادههای بدون ساختار 0:53
-
چگونه استخراج محتوا کار میکند؟ - پاکسازی و نرمالسازی داده 2:57
-
تقسیمبندی و ساختاردهی داده و ارکستراسیون گردش کار 7:32
-
فریمورک بدون ساختار - کل گردش کار و بررسی 7:59
-
عملی: پیشپردازش یک فایل PDF و تحلیل دادههای استخراجشده JSON 10:56
-
عملی: پیشپردازش یک فایل PPTX (PowerPoint) 6:26
-
عملی: پیشپردازش یک فایل HTML 3:06
-
مزایای نرمالسازی محتوا - خلاصه 3:42
-
تقسیمبندی محتوا و استخراج متاداده - بررسی 5:23
-
یافتن عناصر مرتبط با فصلها - عملی 8:06
-
مشابهت معنایی - جستجوی هیبریدی و ذخیره مستندات در پایگاه داده برداری 8:00
-
بازسازی کد - اجتناب از پیشپردازش چندین مستندات 1:33
-
چالشهای مشابهت معنایی - معیارهای تازگی اطلاعات 4:06
-
تقسیمبندی برای عناصر مستندات و مزایای آن - بررسی کامل 8:13
-
تقسیمبندی محتوای مستندات - عملی 3:52
-
خلاصه 1:05
-
پیشپردازش مستندات پیچیده - PDF و تصاویر - بررسی 0:47
-
روشهای تحلیل تصویر مستندات: تشخیصدهنده طرح بندی مستندات و ترانسفورمر بصری 4:03
-
مزایا و معایب ViT و DLD 2:46
-
پیشپردازش فایلهای HTML و PDF - سریع 3:41
-
پیشپردازش با تشخیص طرح بندی مستندات و مقایسه نتایج 7:25
-
استخراج محتویات جدول - عملی 5:44
-
خلاصهسازی دادههای جدولی با LangChain - عملی 4:52
-
همه چیز را یکجا بگذارید - ساخت یک سیستم RAG با استفاده از آنچه آموختهاید - بررسی 1:06
-
پیشپردازش یک فایل PDF و نمایش محتویات جدولی نیز - قسمت 1 5:07
-
فیلتر کردن ارجاعات و سرصفحات از PDF - قسمت 2 5:10
-
پیشپردازش فایلهای PPTX و MD و ذخیره عناصر مستندات در پایگاه داده برداری: قسمت 3 7:12
-
گفتوگو با مستندات خود - PDF - قسمت 4 11:15
-
گفتوگو با مستندات خود - MD و مستندات PPTX - نهایی 6:16
-
بعد چه کار کنیم؟ 3:41
مشخصات آموزش
پیشپردازش دادههای بدون ساختار برای مدلهای زبان و سیستمهای RAG
- تاریخ به روز رسانی: 1404/06/14
- سطح دوره:متوسط
- تعداد درس:39
- مدت زمان :03:01:14
- حجم :1.43GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy