ارزیابی و اتوماسیون تست RAG-LLM برای مبتدیان

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

چگونه مدل‌های زبانی بزرگ (LLM) سفارشی با استفاده از معماری بازیابی نسل افزوده (RAG) طراحی می‌شوند؟
متریک‌ها و بنچ‌مارک‌های رایج مورد استفاده در ارزیابی LLMs مبتنی بر RAG
آشنایی با فریمورک ارزیابی RAGAS برای ارزیابی و تست LLMs
تولید اسکریپت‌های کاربردی برای اتوماسیون و تأیید امتیاز متریک‌های LLMs
اتوماسیون سناریوهایی مانند تعاملات یک‌باره و تعاملات چندباره با LLMs با استفاده از فریمورک RAGAS
تولید داده‌ تست برای ارزیابی متریک‌های LLM با استفاده از فریمورک RAGAS
ایجاد فریمورک ارزیابی RAGAS Pytest برای تأیید متریک‌های RAG (سفارشی) LLMs

پیش‌نیازهای دوره

مبانی پایتون و PyTest الزامی است. اما صبر کنید! ما 2 بخش اختصاصی در انتهای این دوره داریم که دانش لازم درباره پایتون و Pytest را برای پیگیری دوره ارائه می‌دهد.
دانش اولیه درباره تست API

توضیحات دوره

مدل‌های زبانی بزرگ (LLMs) در همه جا وجود دارند. هر کسب‌وکاری در حال ساخت LLMs سفارشی مبتنی بر هوش مصنوعی خود برای بهبود خدمات مشتری است. اما مهندسان چگونه آنها را تست می‌کنند؟ بر خلاف تست سنتی نرم‌افزار، سیستم‌های مبتنی بر هوش مصنوعی نیاز به متدولوژی خاصی برای ارزیابی دارند.

این دوره از ابتدا شروع می‌شود و معماری نحوه کارکرد سیستم‌های هوش مصنوعی (LLMs) در پس‌زمینه را توضیح می‌دهد. سپس به‌طور عمیق به متریک‌های ارزیابی LLM می‌پردازد.

این دوره به شما نشان می‌دهد که چگونه به‌طور موثر از کتابخانه فریمورک RAGAS برای ارزیابی متریک‌های LLM از طریق مثال‌های اسکریپت شده استفاده کنید. این کار به شما اجازه می‌دهد تا از Pytest assertions برای چک کردن امتیازات بنچ‌مارک متریک و طراحی فریمورک قدرتمند اتوماسیون تست و ارزیابی LLM استفاده کنید.

از دوره چه مواردی یاد خواهید گرفت؟

بررسی سطح بالاروی مدل‌های زبانی بزرگ (LLM)
درک نحوه ساخت LLMs سفارشی با استفاده از معماری بازیابی نسل افزوده (RAG)
متریک‌ها و بنچ‌مارک‌های رایج مورد استفاده در ارزیابی LLMs مبتنی بر RAG
آشنایی با فریمورک ارزیابی RAGAS برای ارزیابی و تست LLMs
تولید اسکریپت‌های کاربردی برای اتوماسیون و تأیید امتیاز متریک‌های LLMs
اتوماسیون سناریوهایی مانند تعاملات یک‌باره و تعاملات چندباره با LLMs با استفاده از فریمورک RAGAS
تولید داده‌ تست برای ارزیابی متریک‌های LLM با استفاده از فریمورک RAGAS

در پایان دوره، قادر خواهید بود تا فریمورک ارزیابی RAGAS Pytest را برای تأیید متریک‌های RAG (سفارشی) LLMs ایجاد کنید.

نکته مهم:

این دوره به بررسی 7 متریک برتر می‌پردازد که معمولاً برای ارزیابی و تست LLMs استفاده می‌شود. همین منطق می‌تواند برای سایر ارزیابی‌های متریک نیز به کار رود.

تجربه عملی:

این دوره LLM عملی RAG را برای شما فراهم می‌کند، اما در مرحله اسکریپت‌نویسی، شما به یک اشتراک اولیه در Open AI نیاز دارید تا به APIs آنها دسترسی پیدا کنید.

این دوره برای چه کسانی مناسب است؟

مهندسان نرم‌افزار
مهندسان تضمین کیفیت
متخصصان تست نرم‌افزار

ارزیابی و اتوماسیون تست RAG-LLM برای مبتدیان

فصل 1: آشنایی با مفاهیم هوش مصنوعی - LLMs و RAG LLMs

این دوره چه مواردی را ارائه می‌دهد؟ سوالات متداول - حتماً تماشا کنید 09:12
آشنایی با هوش مصنوعی و LLMs - آنها چگونه کار می‌کنند؟ 06:17
بررسی LLMs محبوب و چالش‌های این LLMs عمومی 06:15
بازیابی نسل افزوده (RAG) چیست؟ درک معماری آن 11:00
جریان End to end در معماری RAG و مزایای کلیدی آن؟ 10:32

فصل 2: درک RAG (بازیابی نسل افزوده) - معماری LLM با یوزکیس‌ها

برداشت‌های نادرست - چرا RAG LLMs؟ - آیا نمی‌توانیم با متدهای سنتی مشکل را حل کنیم؟ 05:26
اگر اطلاعات در RAG موجود نیست، آیا باید از داده‌ LLM استفاده کنیم؟ - بهترین شیوه‌ها 07:09

فصل 3: شروع کار با LLMs تمرینی و رویکرد ارزیابی و تست

دموی RAG LLMs تمرین برای ارزیابی و نوشتن اسکریپت‌های اتوماسیون تست 06:51
درک بخش پیاده‌سازی RAG LLM's تمرینی برای درک کانتکس 08:36
درک سناریوهای LLM مکالمه‌ای و اینکه چگونه در معماری RAG اعمال می‌شوند؟ 05:47
درک بنچ‌مارک‌های متریک برای سیستم بازیابی مستندات در LLM 08:12

فصل 4: راه‌اندازی محیط پایتون و Pytest با کتابخانه‌های پکیج ارزیابی RAGAS LLM

نصب و تنظیم مسیر پایتون در سیستم‌ عامل ویندوز 10:16
نصب و تنظیم مسیر پایتون در سیستم‌ عامل مک 10:26
نصب پکیج‌های فریمورک RAGAS و راه‌اندازی پروژه تست LLM 09:35

فصل 5: راه‌حل برنامه‌‌ای برای ارزیابی متریک‌های LLM با کتابخانه‌های Langchain و RAGAS

ایجاد ارتباط با OpenAI با استفاده از فریمورک Langchain برای RAGAS 15:49
End to end - ارزیابی LLM برای متریک ContextPrecision با داده‌ تست SingleTurn 20:38
ارتباط با LLMs با استفاده از فراخوانی API Post برای به‌دست آوردن پاسخ‌ها به‌طور پویا 09:51
ارزیابی LLM برای متریک یادآوری کانتکس با مثال تست RAGAS Pytest 13:22

فصل 6: بهینه‌سازی تست‌های ارزیابی LLM با فیکسچرهای Pytest و تکنیک‌های پارامترسازی

ساخت فیکسچرهای Pytest برای جداسازی utils مشترک OpenAI و LLM Wrapper از تست 07:56
آشنایی با فیکسچرهای پارامترسازی Pytest برای هدایت داده‌ تست به‌صورت خارجی 10:13
utils قابل استفاده مجدد برای جداسازی فراخوانی‌های API متعلق به LLM و انجام تست تنها روی منطق متریک 13:18

فصل 7: ارزیابی متریک‌های اصلی LLM و اهمیت EvalDataSet در فریمورک RAGAS

درک وفاداری LLMs و متریک‌های مربوط بودن پاسخ به‌طور مفهومی 04:56
ساخت اسکریپت ارزیابی LLM برای تست بنچ‌مارک‌های وفاداری با استفاده از RAGAS 09:42
خواندن داده‌ تست از فایل جی‌سان خارجی به اسکریپت‌های ارزیابی LLM 09:58
درک نحوه استفاده از متریک‌ها در مکان‌های مختلف معماری RAG LLM 10:34
درستی واقعی - ساخت تست واحد برای ارزیابی چندین متریک LLM 12:02

فصل 8: آپلود نتایج ارزیابی LLM و تست LLM برای تاریخچه چت چند مکالمه‌ای

درک EvaluationDataSet و اینکه چگونه به ارزیابی چندین متریک کمک می‌کند 09:41
آپلود نتایج ارزیابی متریک‌های LLM به‌صورت ویژوال در پورتال داشبورد RAGAS 08:21
چگونه RAG LLM را با چت تاریخچه چند مکالمه‌ای ارزیابی کنیم؟ 07:59
ساخت تست ارزیابی LLM که می‌تواند مکالمات چندگانه را ارزیابی کند - مثال 17:42

فصل 9: ایجاد داده‌ تست به‌طور پویا برای ارزیابی LLM و تولید امتیاز ارزیابی Rubrics

چگونه با استفاده از فریمورک RAGAS، داده‌ تست برای ارزیابی LLM ایجاد کنیم؟ 15:02
بارگذاری مستندات خارجی در Langchain utils برای تحلیل و استخراج داده‌ تست 08:52
نصب و پیکربندی پکیج NLTK برای اسکن مستندات LLM و تولید تست‌ها 20:11
تولید امتیازات مبتنی بر معیارهای Rubrics برای ارزیابی کیفیت پاسخ‌های LLM 11:46

فصل 10: نتیجه‌گیری و گام‌های بعدی

یک اسلاید جمع‌بندی از مفاهیم آموخته شده در دوره 04:29

فصل 11: اختیاری - یادگیری اصول پایتون با مثال‌ها

برنامه Hello World در پایتون با مبانی 08:35
تایپ‌های داده پایتون و چگونه تایپ را در ران‌تایم به‌دست آوریم؟ 05:17
تایپ داده لیست و عملیات‌های آن برای دستکاری 12:47
تایپ‌های داده تاپل و دیکشنری در پایتون با مثال‌ها 08:28
دستور شرطی if else در پایتون با مثال‌های کاربردی 03:10
چگونه در ران‌تایم دیکشنری‌ها را ایجاد کرده و به آن داده‌ اضافه کنیم؟ 07:55
حلقه‌ها در پایتون چگونه کار می‌کنند و اهمیت شناسایی کد چیست؟ 08:58
مثال‌های برنامه‌نویسی با استفاده از حلقه for 04:17
مثال‌های برنامه‌نویسی با استفاده از حلقه While 10:27
تابع چیست؟ چگونه می‌توان از آنها در پایتون استفاده کرد؟ 10:46
اصول OOPS - کلاس‌ها و آبجکت‌ها در پایتون 07:38
Constructor چیست و نقش آن در برنامه‌نویسی شی‌گرا چیست؟ 13:38
مفاهیم وراثت با مثال‌ در پایتون 12:12
رشته‌ها و توابع رشته در پایتون 09:53

فصل 12: اختیاری - بررسی مبانی فریمورک Pytest با مثال‌ها

فیکسچرهای pytest چه هستند و چگونه به بهبود تست‌ها کمک می‌کنند؟ 10:29
درک اسکوپ‌ها در فیکسچرهای Pytest با مثال‌ها 11:59
راه‌اندازی و حذف راه‌اندازی با استفاده از فیکسچرهای پایتون و کلیدواژه yield 09:04