پیش‌پردازش داده‌های بدون ساختار برای مدل‌های زبان و سیستم‌های RAG

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

به تکنیک‌های پیش‌پردازش داده‌های بدون ساختار برای مدل‌های زبان و سیستم‌های RAG مسلط شوید.
داده‌ها را از انواع سند پیچیده مانند PDF و HTML استخراج و نرمال‌سازی کنید.
تحلیل مشابهت معنایی و استخراج متاداده را با استفاده از پایگاه‌های داده برداری پیاده‌سازی کنید.
یک سیستم RAG بسازید تا به‌طور دینامیک با داده‌های پیش‌پردازش شده خود تعامل داشته باشید.

توضیحات دوره

ظرفیت کامل داده‌های بدون ساختار را با تسلط به تکنیک‌های پیش‌پردازش برای مدل‌های زبان و سیستم‌های تولید با بازیابی (RAG) کشف کنید. این دوره جامع شما را با مهارت‌هایی برای آماده‌سازی داده‌های بدون ساختار برای اپلیکیشن های پیشرفته هوش مصنوعی تجهیز می‌کند و ورودی با کیفیت بالا را برای بهبود نتایج تضمین می‌کند. از درک پیچیدگی‌های پیش‌پردازش داده‌ها تا پروژه‌های عملی، بینش‌های ارزشمندی از فریم‌ورک‌ها و ابزارهای پیشرفته به دست خواهید آورد.

سفر شما با راه‌اندازی یک محیط توسعه قوی شامل حساب‌های API و ادغام‌های کلیدی آغاز می‌شود. سپس به جزئیات پیش‌پردازش داده‌های بدون ساختار می‌پردازید و چالش‌هایی مانند نرمال‌سازی داده‌ها، تقسیم‌بندی و استخراج متاداده را بررسی می‌کنید. با استفاده از فریم‌ورک بدون ساختار به‌عنوان راهنما، به‌طور مؤثر HTML ،PDF و مستندات PPTX را پیش‌پردازش می‌کنید و ساختاردهی بهینه داده‌ها را تضمین می‌کنید.

این دوره بر کاربردهای دنیای واقعی تأکید دارد و تجربه عملی با مشابهت معنایی، پایگاه‌های داده برداری و استراتژی‌های جستجوی هیبریدی را ارائه می‌دهد. شما تکنیک‌های پیشرفته تشخیص طرح بندی مستندات را بررسی می‌کنید و از ابزارهایی مانند Visual Transformers و LangChain برای پیش‌پردازش مستندات پیچیده و استخراج بینش‌های معنادار استفاده می‌کنید. در نهایت، تمام این مهارت‌ها را در ساخت یک سیستم RAG کاملاً کاربردی به کار می‌گیرید و تکنیک‌های آموخته‌شده را برای تعامل دینامیک با داده‌ها یکپارچه می‌کنید.

این دوره برای مهندسان داده، پزشکان هوش مصنوعی و توسعه‌دهندگانی که به دنبال بهبود مهارت‌های پیش‌پردازش خود هستند، ایده‌آل است. در حالی که آشنایی با Python و استفاده اولیه از API‌ها کمک‌کننده است، این دوره برای سطح میانه و همچنین افرادی که به دنبال تخصص پیشرفته هستند، طراحی شده است.

پیش‌پردازش داده‌های بدون ساختار برای مدل‌های زبان و سیستم‌های RAG

فصل 1: مقدمه

معرفی و موضوع دوره و پیش‌نیازها 3:38
ساختار دوره 1:08
منابع کامل دوره None

فصل 2: راه‌اندازی محیط توسعه

راه‌اندازی محیط توسعه - بررسی 1:37
راه‌اندازی حساب API OpenAI و کلید API 6:15
راه‌اندازی حساب بدون ساختار و کلید API رایگان 2:44
اجرای آزمایشی فریم‌ورک بدون ساختار 4:06

فصل 3: پیش‌پردازش داده برای مدل‌های زبان - درک عمیق

درک عمیق در پیش‌پردازش داده - بررسی 5:47
بررسی پیش‌پردازش داده برای مدل‌های زبان - چرا پیش‌پردازش داده دشوار است؟ 3:05
چالش‌های داده‌های بدون ساختار 0:53
چگونه استخراج محتوا کار می‌کند؟ - پاکسازی و نرمال‌سازی داده 2:57
تقسیم‌بندی و ساختاردهی داده و ارکستراسیون گردش کار 7:32
فریم‌ورک بدون ساختار - کل گردش کار و بررسی 7:59

فصل 4: عملی: فریم‌ورک بدون ساختار - پیش‌پردازش HTML ،PDF و مستندات PPTX

عملی: پیش‌پردازش یک فایل PDF و تحلیل داده‌های استخراج‌شده JSON 10:56
عملی: پیش‌پردازش یک فایل PPTX (PowerPoint) 6:26
عملی: پیش‌پردازش یک فایل HTML 3:06
مزایای نرمال‌سازی محتوا - خلاصه 3:42

فصل 5: تقسیم‌بندی و استخراج متاداده

تقسیم‌بندی محتوا و استخراج متاداده - بررسی 5:23
یافتن عناصر مرتبط با فصل‌ها - عملی 8:06
مشابهت معنایی - جستجوی هیبریدی و ذخیره مستندات در پایگاه داده برداری 8:00
بازسازی کد - اجتناب از پیش‌پردازش چندین مستندات 1:33
چالش‌های مشابهت معنایی - معیارهای تازگی اطلاعات 4:06
تقسیم‌بندی برای عناصر مستندات و مزایای آن - بررسی کامل 8:13
تقسیم‌بندی محتوای مستندات - عملی 3:52
خلاصه 1:05

فصل 6: پیش‌پردازش مستندات پیچیده - PDF و تصاویر

پیش‌پردازش مستندات پیچیده - PDF و تصاویر - بررسی 0:47
روش‌های تحلیل تصویر مستندات: تشخیص‌دهنده طرح بندی مستندات و ترانسفورمر بصری 4:03
مزایا و معایب ViT و DLD 2:46
پیش‌پردازش فایل‌های HTML و PDF - سریع 3:41
پیش‌پردازش با تشخیص طرح بندی مستندات و مقایسه نتایج 7:25
استخراج محتویات جدول - عملی 5:44
خلاصه‌سازی داده‌های جدولی با LangChain - عملی 4:52

فصل 7: ساخت یک سیستم RAG با استفاده از تکنیک‌های آموخته‌شده - مورد کامل

همه چیز را یکجا بگذارید - ساخت یک سیستم RAG با استفاده از آنچه آموخته‌اید - بررسی 1:06
پیش‌پردازش یک فایل PDF و نمایش محتویات جدولی نیز - قسمت 1 5:07
فیلتر کردن ارجاعات و سرصفحات از PDF - قسمت 2 5:10
پیش‌پردازش فایل‌های PPTX و MD و ذخیره عناصر مستندات در پایگاه داده برداری: قسمت 3 7:12
گفت‌وگو با مستندات خود - PDF - قسمت 4 11:15
گفت‌وگو با مستندات خود - MD و مستندات PPTX - نهایی 6:16