دوره آموزشی
The Great Courses
دوبله زبان فارسی

تسلط به مدل‌های زبانی گفتار: از ASR تا هوش مصنوعی احساسی

تسلط به مدل‌های زبانی گفتار: از ASR تا هوش مصنوعی احساسی

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

  • توسعه مدل‌های زبانی گفتار به‌صورت End-to-End با استفاده از Python و معماری‌های Transformer
  • تسلط به استخراج ویژگی‌های صوتی و توکن‌سازی برای تشخیص و سنتز گفتار
  • ساخت هوش مصنوعی برای تشخیص احساسات و گفتار شخصی‌سازی‌شده با کاربردهای دنیای واقعی
  • ارزیابی SpeechLMها با معیارهایی مانند WER و بررسی شیوه‌های طراحی اخلاقی هوش مصنوعی

پیش‌نیازهای دوره

  • بدون نیاز به تجربه قبلی در زمینه هوش مصنوعی گفتاری – مناسب برای مبتدیان همراه با راهنمایی‌های عملی!
  • یک کامپیوتر با Python 3.7+ ،TensorFlow/PyTorch و کتابخانه‌های صوتی (مانند Librosa)
  • آشنایی اولیه با برنامه‌نویسی Python (آشنایی با حلقه‌ها، توابع و کتابخانه‌هایی مانند NumPy)

توضیحات دوره

درک خود را از هوش مصنوعی صوتی با این دوره جامع در مورد مدل‌های زبانی گفتار (SLMs) متحول کنید؛ فناوری انقلابی که پایپ‌لاین‌های سنتی پردازش گفتار را با راه‌حل‌های قدرتمند End-to-End جایگزین می‌کند.

آنچه به آن مسلط خواهید شد:

مدل‌های زبانی گفتار مرز بعدی در هوش مصنوعی هستند و فراتر از محدودیت‌های پایپ‌لاین‌های سنتی ASR→LLM→TTS عمل می‌کنند. مدرس در این دوره شما را از مفاهیم بنیادی به سمت کاربردهای پیشرفته هدایت می‌کند و همه چیز از توکن‌سازی گفتار و معماری‌های Transformer تا هوش مصنوعی احساسی و تعاملات صوتی بلادرنگ را پوشش می‌دهد.

چرا این دوره اهمیت دارد:

پردازش گفتار سنتی از مشکلاتی نظیر از دست رفتن اطلاعات، تاخیر بالا و انباشت خطا در مراحل متعدد رنج می‌برد. SLMها این مشکلات را با پردازش مستقیم گفتار حل می‌کنند و نه تنها کلمات، بلکه احساسات، هویت گوینده و نشانه‌های فرازبانی را که ارتباطات انسانی را غنی و دقیق می‌کنند، ثبت می‌نمایند.

ویژگی‌های منحصر‌به‌فرد این دوره:

  • یادگیری عملی: کار با مدل‌های پیشرفته‌ای مانند YourTTS، Whisper و HuBERT
  • پوشش کامل پایپ‌لاین: از کار با صدای خام تا اپلیکیشن‌های استقرار شده 
  • کاربردهای دنیای واقعی: ساخت سیستم‌های ASR، شبیه‌سازی صدا، تشخیص احساسات و ایجنت‌های صوتی تعاملی.
  • جدیدترین پژوهش‌ها: پوشش پیشرفت‌های لبه تکنولوژی در حوزه به‌سرعت در حال تحول SLM
  • پیاده‌سازی عملی: یادگیری متدولوژی‌های آموزش، معیارهای ارزیابی و استراتژی‌های استقرار

تکنولوژی‌های کلیدی که با آن‌ها کار خواهید کرد:

  • توکن‌سازهای گفتار (EnCodec ،HuBERT ،Wav2Vec 2.0)
  • معماری‌های Transformer تطبیق‌یافته برای گفتار
  • تکنولوژی‌های وکودر (Hi-Fi GAN)
  • رویکردهای آموزش چندوجهی 
  • تنظیم دقیق کارآمد پارامتری (LoRA)

مناسب برای:

  • مهندسان AI/ML که قصد دارند در فناوری گفتار تخصص پیدا کنند.
  • دانشجویان یا کسانی که قصد تغییر مسیر شغلی دارند.
  • پژوهشگرانی که به دنبال بررسی در هوش مصنوعی صوتی نسل بعدی هستند.
  • توسعه‌دهندگانی که اپلیکیشن‌های مبتنی بر صدا می‌سازند.
  • هر کسی که کنجکاو است بداند دستیارهای صوتی مدرن واقعاً چگونه کار می‌کنند.

نتیجه دوره:

با اتمام این دوره، شما مهارت طراحی، آموزش و دیپلوی مدل‌های زبانی گفتار را برای کاربردهای متنوع از تشخیص گفتار اولیه تا ایجنت‌های صوتی پیشرفته و آگاه به احساسات خواهید داشت. شما هم مبانی نظری و هم جزئیات پیاده‌سازی عملی مورد نیاز برای مشارکت در این حوزه هیجان‌انگیز را درک خواهید کرد.

به انقلاب هوش مصنوعی صوتی بپیوندید و به فناوری‌ای مسلط شوید که تعامل انسان و کامپیوتر را بازتعریف می‌کند!

این دوره برای چه کسانی مناسب است؟

  • این دوره برای توسعه‌دهندگان مشتاق AI، دانشمندان داده و علاقه‌مندان به تکنولوژی است که می‌خواهند با مدل‌های زبانی گفتار، پیشگام آینده هوش مصنوعی صوتی باشند.
  • ایده‌آل برای مبتدیان با مهارت‌های اولیه Python و ML، و همچنین یادگیرندگان سطح متوسط که هدفشان ساخت اپلیکیشن‌های پیشرفته مانند تشخیص گفتار بلادرنگ، دستیارهای صوتی آگاه به احساسات و ترجمه گفتار است.
  • قدرت پردازش گفتار End-to-End را برای شغل‌های رده‌بالا در هوش مصنوعی آزاد کنید!

تسلط به مدل‌های زبانی گفتار: از ASR تا هوش مصنوعی احساسی

  • مقدمه 01:59
  • مقدمه ماژول 1: آشنایی با پردازش زبان گفتار و ظهور مدل SpeechLM 03:01
  • مروری بر پردازش گفتار سنتی - بخش 1 12:36
  • مروری بر پردازش گفتار سنتی - بخش 2 11:18
  • چگونگی دانلود Anaconda و ایجاد محیط 03:04
  • بحث و مثال کدنویسی 1.1: ساخت یک ایجنت مکالمه‌ای مبتنی بر گفتار 09:35
  • آزمون - 1.1 مروری بر پایپ‌لاین سنتی None
  • محدودیت‌های پایپ‌لاین سنتی - بخش 1 09:11
  • محدودیت‌های پایپ‌لاین سنتی - بخش 2 08:47
  • بحث مثال کدنویسی 1.2 - پایپ‌لاین گفتار با محدودیت‌های شبیه‌سازی‌شده 08:07
  • آزمون - 1.2 محدودیت‌های پایپ‌لاین سنتی None
  • مقدمه‌ای بر مدل‌های زبانی گفتار - بخش 1 09:29
  • مقدمه‌ای بر مدل‌های زبانی گفتار - بخش 2 09:45
  • بحث مثال کدنویسی 1.3 - توکن‌سازی و بازسازی صوتی + پهنای باند چندگانه 09:57
  • آزمون - 1.3 مقدمه‌ای بر مدل‌های زبانی گفتار None
  • مزایای مدل‌های زبانی گفتار - بخش 1 09:27
  • مزایای مدل‌های زبانی گفتار - بخش 2 06:42
  • مثال کدنویسی 1.4 - تشخیص گفتار و احساسات با SpeechLM و wav2vec2 09:26
  • آزمون - 1.4 مزایای مدل‌های زبانی گفتار None
  • مقایسه SpeechLM با مدل‌های زبانی متنی - بخش 1 10:38
  • مقایسه SpeechLM با مدل‌های زبانی متنی (TextLMs) - بخش 2 12:23
  • بحث مثال کدنویسی 1.5 - مقایسه مودالیته TextLM در برابر SpeechLM 04:25
  • آزمون - 1.5 مقایسه SpeechLM با مدل‌های زبانی متنی (TextLMs) None
  • کاربردهای مدل‌های زبانی گفتار - بخش 1 10:22
  • کاربردهای مدل‌های زبانی گفتار - بخش 2 12:22
  • بحث مثال کدنویسی 1.6 - دستیار صوتی آگاه به احساسات 04:05
  • آزمون - 1.6 کاربردهای مدل‌های زبانی گفتار - بخش 2 None
  • معرفی ماژول 2: مبانی گفتار و زبان برای SpeechLMها 03:15
  • مبانی آکوستیک گفتار - بخش 1 12:43
  • مبانی آکوستیک گفتار - بخش 2 13:50
  • مثال کدنویسی 2.1 - تحلیل و پیاده‌سازی گفتار + استخراج ویژگی صوتی 05:34
  • آزمون 2.1 مبانی آکوستیک گفتار None
  • مدل منبع-فیلتر تولید گفتار - بخش 1 09:31
  • مدل منبع-فیلتر تولید گفتار - بخش 2 09:20
  • آزمون 2.2 مدل منبع-فیلتر تولید گفتار None
  • آواشناسی و واج‌شناسی در گفتار - بخش 1 13:59
  • آواشناسی و واج‌شناسی در گفتار - بخش 2 10:56
  • بحث مثال کدنویسی 2.3 - سیستم تشخیص و تحلیل آوایی 05:29
  • آزمون 2.3 - آواشناسی و واج‌شناسی در گفتار None
  • 2.4 استخراج ویژگی‌های صوتی - بخش 1 08:51
  • 2.4 استخراج ویژگی‌های صوتی - بخش 2 11:23
  • بحث مثال کدنویسی 2.4 - پایداری در برابر نویز در تحلیل ویژگی‌های گفتار 06:29
  • آزمون 2.4 استخراج ویژگی‌های صوتی None
  • نمایش‌های بین‌وجهی برای مدل‌های زبانی گفتار - بخش 1 11:57
  • نمایش‌های بین‌وجهی برای مدل‌های زبانی گفتار - بخش 2 13:13
  • مثال کدنویسی 2.5 - تجسم و چارچوب تحلیل هم‌ترازی بین‌وجهی 06:45
  • آزمون 2.5 - نمایش‌های بین‌وجهی برای SpeechLMها None
  • معرفی ماژول 3: معماری‌ها و اجزای کلیدی SpeechLMها 02:34
  • معماری عمومی یک SpeechLM - بخش 1 13:11
  • معماری عمومی یک SpeechLM - بخش 2 10:42
  • مثال کدنویسی 3.1 - شبیه‌سازی پایپ‌لاین ساده‌شده SpeechLM + همراه با مدل زبانی Bigram 07:41
  • آزمون 3.1 معماری عمومی یک SpeechLM None
  • 3.2 توکن‌سازهای گفتار - بخش 1 13:11
  • 3.2 توکن‌سازهای گفتار - بخش 2 10:42
  • مثال کدنویسی - مقایسه متدهای توکن‌سازی گفتار (ST) + توکن‌سازی با دایره لغات بهبود یافته 09:22
  • آزمون 3.2 توکن‌سازهای گفتار None
  • مدل‌های زبانی در SpeechLMها - بخش 1 14:03
  • مدل‌های زبانی در SpeechLMها - بخش 2 13:40
  • مثال کدنویسی - پیش‌بینی توکن گفتار مبتنی بر Transformer + مدل‌سازی توکن گفتار 09:00
  • آزمون 3.3 مدل‌های زبانی در SpeechLMها None
  • وکودرها در SpeechLMها - بخش 1 08:45
  • وکودرها در SpeechLMها - بخش 2 07:48
  • مثال کدنویسی 3.4 - وکودر عصبی برای سنتز صوتی + الگوریتم Griffin-Lim 11:58
  • آزمون 3.4 وکودرها در SpeechLMها None
  • معرفی ماژول 4: متدولوژی‌های آموزش برای SpeechLMها 03:28
  • مروری بر مراحل آموزش برای SpeechLMها - بخش 1 14:13
  • مروری بر مراحل آموزش برای SpeechLMها - بخش 2 15:59
  • مثال کدنویسی - آموزش چندمرحله‌ای برای SpeechLM + پایپ‌لاین آموزش جامع 09:03
  • آزمون 4.1 مروری بر مراحل آموزش برای SpeechLMها None
  • متدولوژی‌های پیش‌آموزش برای SpeechLMها - بخش 1 17:31
  • متدولوژی‌های پیش‌آموزش برای SpeechLMها - بخش 2 19:29
  • مثال کدنویسی - پیش‌آموزش سبک‌وزن SpeechLM + استراتژی‌های پیشرفته کدگشایی (Decoding) 11:12
  • آزمون 4.2 متدولوژی‌های پیش‌آموزش برای SpeechLMها None
  • تنظیم دستورالعمل برای مدل‌های زبانی گفتار - بخش 1 16:10
  • تنظیم دستورالعمل برای مدل‌های زبانی گفتار - بخش 2 17:51
  • کدها 4.2 - PEFT مدل Wav2Vec2 با LoRA + تنظیم تشخیص گفتار مبتنی بر دستورالعمل 10:44
  • آزمون 4.3 تنظیم دستورالعمل برای مدل‌های زبانی گفتار None
  • تکنیک‌های هم‌ترازی پسین برای مدل‌های زبانی گفتار - بخش 1 13:53
  • تکنیک‌های هم‌ترازی پسین برای مدل‌های زبانی گفتار - بخش 2 14:26
  • کدها 4.4 - استقرار SpeechLM در دنیای واقعی با تکنیک‌های Post-Alignment 09:35
  • آزمون 4.4 تکنیک‌های هم‌ترازی پسین برای مدل‌های زبانی گفتار None
  • معرفی ماژول 5: قابلیت‌ها و کاربردهای SpeechLMها با جزئیات 03:00
  • قابلیت‌ها و کاربردهای SpeechLMها: تسک های مرتبط با معنا - بخش 1 09:35
  • قابلیت‌ها و کاربردهای SpeechLMها: تسک های مرتبط با معنا - بخش 2 13:34
  • کدها 5.1 - Whisper ASR با برچسب زمانی سطح کلمه + شبیه‌سازی صوتی Zero-Shot با YourTTS 07:14
  • آزمون 5.1 قابلیت‌ها و کاربردهای SpeechLMها: وظایف مرتبط با معنا None
  • قابلیت‌ها و کاربردهای SpeechLMها: تسک های مرتبط با گوینده - بخش 1 12:25
  • قابلیت‌ها و کاربردهای SpeechLMها: تسک های مرتبط با گوینده - بخش 2 09:06
  • کدها 5.2 - تایید هویت گوینده با امبدینگ‌های ECAPA-TDNN + شبیه‌سازی صوتی (Voice Cloning) 08:17
  • آزمون 5.2 قابلیت‌ها و کاربردهای SpeechLMها: تسک های مرتبط با گوینده None
  • کاربردهای فرازبانی مدل‌های SpeechLM - بخش 1 15:46
  • کاربردهای فرازبانی مدل‌های SpeechLM - بخش 2 11:53
  • کدها 5.3 - تشخیص احساسات گفتار + سنتز گفتار کنترل‌شده با آهنگ کلام (Prosody) 11:44
  • آزمون 5.3 کاربردهای فرازبانی SpeechLMها None
  • تعامل صوتی پیشرفته با SpeechLMها - بخش 1 15:52
  • تعامل صوتی پیشرفته با SpeechLMها - بخش 2 12:53
  • کدها 5.4 - ASR بلادرنگ با VAD و مدیریت وقفه + پیش‌بینی نوبت‌گیری در مکالمه 08:05
  • آزمون 5.4 تعامل صوتی پیشرفته با SpeechLMها None
  • معرفی ماژول 6: معیارهای ارزیابی و بنچمارک SpeechLMها 02:52
  • معیارهای ارزیابی رایج برای SpeechLMها - بخش 1 20:04
  • معیارهای ارزیابی رایج برای SpeechLMها - بخش 2 13:32
  • کدها 6.1 - ارزیابی جامع ASR + چارچوب ارزیابی کیفیت TTS 11:29
  • آزمون 6.1 معیارهای ارزیابی رایج برای SpeechLMها None
  • ارزیابی و بنچمارک مدل‌های زبانی گفتار - بخش 1 13:44
  • ارزیابی و بنچمارک مدل‌های زبانی گفتار - بخش 2 12:56
  • ارزیابی و بنچمارک مدل‌های زبانی گفتار - بخش 3 11:57
  • کدها 6.2 - ASR همراه با تشخیص احساس + ارزیابی TTS/VC با تحلیل ویژگی‌های آکوستیک 07:08
  • آزمون 6.2 ارزیابی و بنچمارک مدل‌های زبانی گفتار None
  • دیتاست‌های بنچمارک برای مدل‌های زبانی گفتار - بخش 1 10:54
  • دیتاست‌های بنچمارک برای مدل‌های زبانی گفتار - بخش 2 11:06
  • کدها 6.3 - ASR سفارشی + چارچوب بنچمارک امن TTS با SpeechT5 و Pyannote 05:17
  • آزمون 6.3 دیتاست‌های بنچمارک برای مدل‌های زبانی گفتار (SpeechLMs) None
  • مقایسه SpeechLMها با سیستم‌های سنتی ASR، TTS و ترجمه - بخش 1 18:14
  • مقایسه SpeechLMها با سیستم‌های سنتی ASR، TTS و ترجمه - بخش 2 15:57
  • کدها 6.4 - مقایسه SpeechLM در برابر سیستم ASR سنتی + حفظ احساس 05:52
  • آزمون 6.4 مقایسه SpeechLMها با سیستم‌های سنتی ASR، TTS و ترجمه None
  • معرفی ماژول 7: چالش‌ها و مسیرهای آینده در تحقیقات SpeechLM 03:38
  • درک انتخاب اجزا در مدل‌های زبانی گفتار - بخش 1 11:26
  • درک انتخاب اجزا در مدل‌های زبانی گفتار - بخش 2 10:47
  • کدها 7.1 - مقایسه استخراج‌کننده ویژگی گفتار + چارچوب مقایسه وکودر 07:08
  • آزمون 7.1 درک انتخاب اجزا در مدل‌های زبانی گفتار None
  • آموزش End-to-End مدل‌های زبانی گفتار - بخش 1 09:12
  • آموزش End-to-End مدل‌های زبانی گفتار - بخش 2 10:54
  • کدها 7.2 - آموزش تشخیص گفتار End-to-End + آموزش TTS Lite Tacotron 09:05
  • آزمون 7.2 آموزش End-to-End اجزای SpeechLM None
  • مقیاس‌بندی مدل‌های زبانی گفتار به اندازه‌ها و دیتاست‌های بزرگتر - بخش 1 10:43
  • مقیاس‌بندی مدل‌های زبانی گفتار به اندازه‌ها و دیتاست‌های بزرگتر - بخش 2 10:15
  • کدها 7.3 - آموزش تشخیص گفتار مقیاس‌پذیر + کش کردن دیتاست، دسته‌بندی پویا (Dynamic Bucketing) 11:16
  • آزمون 7.3 مقیاس‌بندی مدل‌های زبانی گفتار به اندازه‌ها و دیتاست‌های بزرگتر None
  • بهبود مدل‌سازی اطلاعات فرازبانی در SpeechLMها - بخش 1 13:52
  • 7.4 بهبود مدل‌سازی اطلاعات فرازبانی در SpeechLMها - بخش 2 11:38
  • کدها 7.2 - تشخیص احساسات با مدل HuBERT + سنتز با کنترل آهنگ کلام با FastPitch 06:26
  • آزمون 7.4 بهبود مدل‌سازی اطلاعات فرازبانی در SpeechLMها None
  • مدیریت زبان‌های کم‌منبع برای مدل‌های زبانی گفتار - بخش 1 18:55
  • مدیریت زبان‌های کم‌منبع برای مدل‌های زبانی گفتار - بخش 2 14:28
  • کدها 7.5 - تنظیم دقیق مدل XLS-R برای ASR + طبقه‌بندی احساسات با SpecAugment 09:19
  • آزمون 7.5 مدیریت زبان‌های کم‌منبع برای مدل‌های زبانی گفتار None
  • توسعه SpeechLMهای بلادرنگ و دوطرفه - بخش 1 18:55
  • توسعه SpeechLMهای بلادرنگ و دوطرفه - بخش 2 14:28
  • کدها 7.6 - استریمینگ ASR با ترنسفورمر علی با تاخیر کم + VAD برای سیستم‌های Barge-In 07:45
  • آزمون 7.6 توسعه SpeechLMهای بلادرنگ و دوطرفه None
  • پرداختن به نگرانی‌های ایمنی و اخلاقی در SpeechLMها - بخش 1 10:51
  • پرداختن به نگرانی‌های ایمنی و اخلاقی در SpeechLMها - بخش 2 12:55
  • کدها 7.7 - ارزیابی سوگیری در ASR، عدالت در لهجه + تعدیل TTS با فیلترینگ محتوای سمی 08:58
  • آزمون 7.7 پرداختن به نگرانی‌های ایمنی و اخلاقی در SpeechLMها None

7,695,500 1,539,100 تومان

مشخصات آموزش

تسلط به مدل‌های زبانی گفتار: از ASR تا هوش مصنوعی احساسی

  • تاریخ به روز رسانی: 1404/10/04
  • سطح دوره:همه سطوح
  • تعداد درس:145
  • مدت زمان :19:29:25
  • حجم :6.5GB
  • زبان:دوبله زبان فارسی
  • دوره آموزشی:AI Academy

آموزش های مرتبط

The Great Courses
651,500 130,300 تومان
  • زمان: 01:39:55
  • تعداد درس: 6
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,889,000 377,800 تومان
  • زمان: 04:47:39
  • تعداد درس: 30
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,501,000 300,200 تومان
  • زمان: 03:48:11
  • تعداد درس: 47
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
10,289,500 2,057,900 تومان
  • زمان: 26:03:06
  • تعداد درس: 121
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
490,000 98,000 تومان
  • زمان: 54:55
  • تعداد درس: 18
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,797,000 359,400 تومان
  • زمان: 04:33:59
  • تعداد درس: 86
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
500,000 100,000 تومان
  • زمان: 01:16:19
  • تعداد درس: 12
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
1,580,000 316,000 تومان
  • زمان: 04:00:26
  • تعداد درس: 31
  • سطح دوره:
  • زبان: دوبله فارسی
The Great Courses
770,000 154,000 تومان
  • زمان: 01:57:58
  • تعداد درس: 29
  • سطح دوره:
  • زبان: دوبله فارسی

آیا سوالی دارید؟

ما به شما کمک خواهیم کرد تا شغل و رشد خود را افزایش دهید.
امروز با ما تماس بگیرید