تسلط به مدلهای زبانی گفتار: از ASR تا هوش مصنوعی احساسی
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- توسعه مدلهای زبانی گفتار بهصورت End-to-End با استفاده از Python و معماریهای Transformer
- تسلط به استخراج ویژگیهای صوتی و توکنسازی برای تشخیص و سنتز گفتار
- ساخت هوش مصنوعی برای تشخیص احساسات و گفتار شخصیسازیشده با کاربردهای دنیای واقعی
- ارزیابی SpeechLMها با معیارهایی مانند WER و بررسی شیوههای طراحی اخلاقی هوش مصنوعی
پیشنیازهای دوره
- بدون نیاز به تجربه قبلی در زمینه هوش مصنوعی گفتاری – مناسب برای مبتدیان همراه با راهنماییهای عملی!
- یک کامپیوتر با Python 3.7+ ،TensorFlow/PyTorch و کتابخانههای صوتی (مانند Librosa)
- آشنایی اولیه با برنامهنویسی Python (آشنایی با حلقهها، توابع و کتابخانههایی مانند NumPy)
توضیحات دوره
درک خود را از هوش مصنوعی صوتی با این دوره جامع در مورد مدلهای زبانی گفتار (SLMs) متحول کنید؛ فناوری انقلابی که پایپلاینهای سنتی پردازش گفتار را با راهحلهای قدرتمند End-to-End جایگزین میکند.
آنچه به آن مسلط خواهید شد:
مدلهای زبانی گفتار مرز بعدی در هوش مصنوعی هستند و فراتر از محدودیتهای پایپلاینهای سنتی ASR→LLM→TTS عمل میکنند. مدرس در این دوره شما را از مفاهیم بنیادی به سمت کاربردهای پیشرفته هدایت میکند و همه چیز از توکنسازی گفتار و معماریهای Transformer تا هوش مصنوعی احساسی و تعاملات صوتی بلادرنگ را پوشش میدهد.
چرا این دوره اهمیت دارد:
پردازش گفتار سنتی از مشکلاتی نظیر از دست رفتن اطلاعات، تاخیر بالا و انباشت خطا در مراحل متعدد رنج میبرد. SLMها این مشکلات را با پردازش مستقیم گفتار حل میکنند و نه تنها کلمات، بلکه احساسات، هویت گوینده و نشانههای فرازبانی را که ارتباطات انسانی را غنی و دقیق میکنند، ثبت مینمایند.
ویژگیهای منحصربهفرد این دوره:
- یادگیری عملی: کار با مدلهای پیشرفتهای مانند YourTTS، Whisper و HuBERT
- پوشش کامل پایپلاین: از کار با صدای خام تا اپلیکیشنهای استقرار شده
- کاربردهای دنیای واقعی: ساخت سیستمهای ASR، شبیهسازی صدا، تشخیص احساسات و ایجنتهای صوتی تعاملی.
- جدیدترین پژوهشها: پوشش پیشرفتهای لبه تکنولوژی در حوزه بهسرعت در حال تحول SLM
- پیادهسازی عملی: یادگیری متدولوژیهای آموزش، معیارهای ارزیابی و استراتژیهای استقرار
تکنولوژیهای کلیدی که با آنها کار خواهید کرد:
- توکنسازهای گفتار (EnCodec ،HuBERT ،Wav2Vec 2.0)
- معماریهای Transformer تطبیقیافته برای گفتار
- تکنولوژیهای وکودر (Hi-Fi GAN)
- رویکردهای آموزش چندوجهی
- تنظیم دقیق کارآمد پارامتری (LoRA)
مناسب برای:
- مهندسان AI/ML که قصد دارند در فناوری گفتار تخصص پیدا کنند.
- دانشجویان یا کسانی که قصد تغییر مسیر شغلی دارند.
- پژوهشگرانی که به دنبال بررسی در هوش مصنوعی صوتی نسل بعدی هستند.
- توسعهدهندگانی که اپلیکیشنهای مبتنی بر صدا میسازند.
- هر کسی که کنجکاو است بداند دستیارهای صوتی مدرن واقعاً چگونه کار میکنند.
نتیجه دوره:
با اتمام این دوره، شما مهارت طراحی، آموزش و دیپلوی مدلهای زبانی گفتار را برای کاربردهای متنوع از تشخیص گفتار اولیه تا ایجنتهای صوتی پیشرفته و آگاه به احساسات خواهید داشت. شما هم مبانی نظری و هم جزئیات پیادهسازی عملی مورد نیاز برای مشارکت در این حوزه هیجانانگیز را درک خواهید کرد.
به انقلاب هوش مصنوعی صوتی بپیوندید و به فناوریای مسلط شوید که تعامل انسان و کامپیوتر را بازتعریف میکند!
این دوره برای چه کسانی مناسب است؟
- این دوره برای توسعهدهندگان مشتاق AI، دانشمندان داده و علاقهمندان به تکنولوژی است که میخواهند با مدلهای زبانی گفتار، پیشگام آینده هوش مصنوعی صوتی باشند.
- ایدهآل برای مبتدیان با مهارتهای اولیه Python و ML، و همچنین یادگیرندگان سطح متوسط که هدفشان ساخت اپلیکیشنهای پیشرفته مانند تشخیص گفتار بلادرنگ، دستیارهای صوتی آگاه به احساسات و ترجمه گفتار است.
- قدرت پردازش گفتار End-to-End را برای شغلهای ردهبالا در هوش مصنوعی آزاد کنید!
تسلط به مدلهای زبانی گفتار: از ASR تا هوش مصنوعی احساسی
-
مقدمه 01:59
-
مقدمه ماژول 1: آشنایی با پردازش زبان گفتار و ظهور مدل SpeechLM 03:01
-
مروری بر پردازش گفتار سنتی - بخش 1 12:36
-
مروری بر پردازش گفتار سنتی - بخش 2 11:18
-
چگونگی دانلود Anaconda و ایجاد محیط 03:04
-
بحث و مثال کدنویسی 1.1: ساخت یک ایجنت مکالمهای مبتنی بر گفتار 09:35
-
آزمون - 1.1 مروری بر پایپلاین سنتی None
-
محدودیتهای پایپلاین سنتی - بخش 1 09:11
-
محدودیتهای پایپلاین سنتی - بخش 2 08:47
-
بحث مثال کدنویسی 1.2 - پایپلاین گفتار با محدودیتهای شبیهسازیشده 08:07
-
آزمون - 1.2 محدودیتهای پایپلاین سنتی None
-
مقدمهای بر مدلهای زبانی گفتار - بخش 1 09:29
-
مقدمهای بر مدلهای زبانی گفتار - بخش 2 09:45
-
بحث مثال کدنویسی 1.3 - توکنسازی و بازسازی صوتی + پهنای باند چندگانه 09:57
-
آزمون - 1.3 مقدمهای بر مدلهای زبانی گفتار None
-
مزایای مدلهای زبانی گفتار - بخش 1 09:27
-
مزایای مدلهای زبانی گفتار - بخش 2 06:42
-
مثال کدنویسی 1.4 - تشخیص گفتار و احساسات با SpeechLM و wav2vec2 09:26
-
آزمون - 1.4 مزایای مدلهای زبانی گفتار None
-
مقایسه SpeechLM با مدلهای زبانی متنی - بخش 1 10:38
-
مقایسه SpeechLM با مدلهای زبانی متنی (TextLMs) - بخش 2 12:23
-
بحث مثال کدنویسی 1.5 - مقایسه مودالیته TextLM در برابر SpeechLM 04:25
-
آزمون - 1.5 مقایسه SpeechLM با مدلهای زبانی متنی (TextLMs) None
-
کاربردهای مدلهای زبانی گفتار - بخش 1 10:22
-
کاربردهای مدلهای زبانی گفتار - بخش 2 12:22
-
بحث مثال کدنویسی 1.6 - دستیار صوتی آگاه به احساسات 04:05
-
آزمون - 1.6 کاربردهای مدلهای زبانی گفتار - بخش 2 None
-
معرفی ماژول 2: مبانی گفتار و زبان برای SpeechLMها 03:15
-
مبانی آکوستیک گفتار - بخش 1 12:43
-
مبانی آکوستیک گفتار - بخش 2 13:50
-
مثال کدنویسی 2.1 - تحلیل و پیادهسازی گفتار + استخراج ویژگی صوتی 05:34
-
آزمون 2.1 مبانی آکوستیک گفتار None
-
مدل منبع-فیلتر تولید گفتار - بخش 1 09:31
-
مدل منبع-فیلتر تولید گفتار - بخش 2 09:20
-
آزمون 2.2 مدل منبع-فیلتر تولید گفتار None
-
آواشناسی و واجشناسی در گفتار - بخش 1 13:59
-
آواشناسی و واجشناسی در گفتار - بخش 2 10:56
-
بحث مثال کدنویسی 2.3 - سیستم تشخیص و تحلیل آوایی 05:29
-
آزمون 2.3 - آواشناسی و واجشناسی در گفتار None
-
2.4 استخراج ویژگیهای صوتی - بخش 1 08:51
-
2.4 استخراج ویژگیهای صوتی - بخش 2 11:23
-
بحث مثال کدنویسی 2.4 - پایداری در برابر نویز در تحلیل ویژگیهای گفتار 06:29
-
آزمون 2.4 استخراج ویژگیهای صوتی None
-
نمایشهای بینوجهی برای مدلهای زبانی گفتار - بخش 1 11:57
-
نمایشهای بینوجهی برای مدلهای زبانی گفتار - بخش 2 13:13
-
مثال کدنویسی 2.5 - تجسم و چارچوب تحلیل همترازی بینوجهی 06:45
-
آزمون 2.5 - نمایشهای بینوجهی برای SpeechLMها None
-
معرفی ماژول 3: معماریها و اجزای کلیدی SpeechLMها 02:34
-
معماری عمومی یک SpeechLM - بخش 1 13:11
-
معماری عمومی یک SpeechLM - بخش 2 10:42
-
مثال کدنویسی 3.1 - شبیهسازی پایپلاین سادهشده SpeechLM + همراه با مدل زبانی Bigram 07:41
-
آزمون 3.1 معماری عمومی یک SpeechLM None
-
3.2 توکنسازهای گفتار - بخش 1 13:11
-
3.2 توکنسازهای گفتار - بخش 2 10:42
-
مثال کدنویسی - مقایسه متدهای توکنسازی گفتار (ST) + توکنسازی با دایره لغات بهبود یافته 09:22
-
آزمون 3.2 توکنسازهای گفتار None
-
مدلهای زبانی در SpeechLMها - بخش 1 14:03
-
مدلهای زبانی در SpeechLMها - بخش 2 13:40
-
مثال کدنویسی - پیشبینی توکن گفتار مبتنی بر Transformer + مدلسازی توکن گفتار 09:00
-
آزمون 3.3 مدلهای زبانی در SpeechLMها None
-
وکودرها در SpeechLMها - بخش 1 08:45
-
وکودرها در SpeechLMها - بخش 2 07:48
-
مثال کدنویسی 3.4 - وکودر عصبی برای سنتز صوتی + الگوریتم Griffin-Lim 11:58
-
آزمون 3.4 وکودرها در SpeechLMها None
-
معرفی ماژول 4: متدولوژیهای آموزش برای SpeechLMها 03:28
-
مروری بر مراحل آموزش برای SpeechLMها - بخش 1 14:13
-
مروری بر مراحل آموزش برای SpeechLMها - بخش 2 15:59
-
مثال کدنویسی - آموزش چندمرحلهای برای SpeechLM + پایپلاین آموزش جامع 09:03
-
آزمون 4.1 مروری بر مراحل آموزش برای SpeechLMها None
-
متدولوژیهای پیشآموزش برای SpeechLMها - بخش 1 17:31
-
متدولوژیهای پیشآموزش برای SpeechLMها - بخش 2 19:29
-
مثال کدنویسی - پیشآموزش سبکوزن SpeechLM + استراتژیهای پیشرفته کدگشایی (Decoding) 11:12
-
آزمون 4.2 متدولوژیهای پیشآموزش برای SpeechLMها None
-
تنظیم دستورالعمل برای مدلهای زبانی گفتار - بخش 1 16:10
-
تنظیم دستورالعمل برای مدلهای زبانی گفتار - بخش 2 17:51
-
کدها 4.2 - PEFT مدل Wav2Vec2 با LoRA + تنظیم تشخیص گفتار مبتنی بر دستورالعمل 10:44
-
آزمون 4.3 تنظیم دستورالعمل برای مدلهای زبانی گفتار None
-
تکنیکهای همترازی پسین برای مدلهای زبانی گفتار - بخش 1 13:53
-
تکنیکهای همترازی پسین برای مدلهای زبانی گفتار - بخش 2 14:26
-
کدها 4.4 - استقرار SpeechLM در دنیای واقعی با تکنیکهای Post-Alignment 09:35
-
آزمون 4.4 تکنیکهای همترازی پسین برای مدلهای زبانی گفتار None
-
معرفی ماژول 5: قابلیتها و کاربردهای SpeechLMها با جزئیات 03:00
-
قابلیتها و کاربردهای SpeechLMها: تسک های مرتبط با معنا - بخش 1 09:35
-
قابلیتها و کاربردهای SpeechLMها: تسک های مرتبط با معنا - بخش 2 13:34
-
کدها 5.1 - Whisper ASR با برچسب زمانی سطح کلمه + شبیهسازی صوتی Zero-Shot با YourTTS 07:14
-
آزمون 5.1 قابلیتها و کاربردهای SpeechLMها: وظایف مرتبط با معنا None
-
قابلیتها و کاربردهای SpeechLMها: تسک های مرتبط با گوینده - بخش 1 12:25
-
قابلیتها و کاربردهای SpeechLMها: تسک های مرتبط با گوینده - بخش 2 09:06
-
کدها 5.2 - تایید هویت گوینده با امبدینگهای ECAPA-TDNN + شبیهسازی صوتی (Voice Cloning) 08:17
-
آزمون 5.2 قابلیتها و کاربردهای SpeechLMها: تسک های مرتبط با گوینده None
-
کاربردهای فرازبانی مدلهای SpeechLM - بخش 1 15:46
-
کاربردهای فرازبانی مدلهای SpeechLM - بخش 2 11:53
-
کدها 5.3 - تشخیص احساسات گفتار + سنتز گفتار کنترلشده با آهنگ کلام (Prosody) 11:44
-
آزمون 5.3 کاربردهای فرازبانی SpeechLMها None
-
تعامل صوتی پیشرفته با SpeechLMها - بخش 1 15:52
-
تعامل صوتی پیشرفته با SpeechLMها - بخش 2 12:53
-
کدها 5.4 - ASR بلادرنگ با VAD و مدیریت وقفه + پیشبینی نوبتگیری در مکالمه 08:05
-
آزمون 5.4 تعامل صوتی پیشرفته با SpeechLMها None
-
معرفی ماژول 6: معیارهای ارزیابی و بنچمارک SpeechLMها 02:52
-
معیارهای ارزیابی رایج برای SpeechLMها - بخش 1 20:04
-
معیارهای ارزیابی رایج برای SpeechLMها - بخش 2 13:32
-
کدها 6.1 - ارزیابی جامع ASR + چارچوب ارزیابی کیفیت TTS 11:29
-
آزمون 6.1 معیارهای ارزیابی رایج برای SpeechLMها None
-
ارزیابی و بنچمارک مدلهای زبانی گفتار - بخش 1 13:44
-
ارزیابی و بنچمارک مدلهای زبانی گفتار - بخش 2 12:56
-
ارزیابی و بنچمارک مدلهای زبانی گفتار - بخش 3 11:57
-
کدها 6.2 - ASR همراه با تشخیص احساس + ارزیابی TTS/VC با تحلیل ویژگیهای آکوستیک 07:08
-
آزمون 6.2 ارزیابی و بنچمارک مدلهای زبانی گفتار None
-
دیتاستهای بنچمارک برای مدلهای زبانی گفتار - بخش 1 10:54
-
دیتاستهای بنچمارک برای مدلهای زبانی گفتار - بخش 2 11:06
-
کدها 6.3 - ASR سفارشی + چارچوب بنچمارک امن TTS با SpeechT5 و Pyannote 05:17
-
آزمون 6.3 دیتاستهای بنچمارک برای مدلهای زبانی گفتار (SpeechLMs) None
-
مقایسه SpeechLMها با سیستمهای سنتی ASR، TTS و ترجمه - بخش 1 18:14
-
مقایسه SpeechLMها با سیستمهای سنتی ASR، TTS و ترجمه - بخش 2 15:57
-
کدها 6.4 - مقایسه SpeechLM در برابر سیستم ASR سنتی + حفظ احساس 05:52
-
آزمون 6.4 مقایسه SpeechLMها با سیستمهای سنتی ASR، TTS و ترجمه None
-
معرفی ماژول 7: چالشها و مسیرهای آینده در تحقیقات SpeechLM 03:38
-
درک انتخاب اجزا در مدلهای زبانی گفتار - بخش 1 11:26
-
درک انتخاب اجزا در مدلهای زبانی گفتار - بخش 2 10:47
-
کدها 7.1 - مقایسه استخراجکننده ویژگی گفتار + چارچوب مقایسه وکودر 07:08
-
آزمون 7.1 درک انتخاب اجزا در مدلهای زبانی گفتار None
-
آموزش End-to-End مدلهای زبانی گفتار - بخش 1 09:12
-
آموزش End-to-End مدلهای زبانی گفتار - بخش 2 10:54
-
کدها 7.2 - آموزش تشخیص گفتار End-to-End + آموزش TTS Lite Tacotron 09:05
-
آزمون 7.2 آموزش End-to-End اجزای SpeechLM None
-
مقیاسبندی مدلهای زبانی گفتار به اندازهها و دیتاستهای بزرگتر - بخش 1 10:43
-
مقیاسبندی مدلهای زبانی گفتار به اندازهها و دیتاستهای بزرگتر - بخش 2 10:15
-
کدها 7.3 - آموزش تشخیص گفتار مقیاسپذیر + کش کردن دیتاست، دستهبندی پویا (Dynamic Bucketing) 11:16
-
آزمون 7.3 مقیاسبندی مدلهای زبانی گفتار به اندازهها و دیتاستهای بزرگتر None
-
بهبود مدلسازی اطلاعات فرازبانی در SpeechLMها - بخش 1 13:52
-
7.4 بهبود مدلسازی اطلاعات فرازبانی در SpeechLMها - بخش 2 11:38
-
کدها 7.2 - تشخیص احساسات با مدل HuBERT + سنتز با کنترل آهنگ کلام با FastPitch 06:26
-
آزمون 7.4 بهبود مدلسازی اطلاعات فرازبانی در SpeechLMها None
-
مدیریت زبانهای کممنبع برای مدلهای زبانی گفتار - بخش 1 18:55
-
مدیریت زبانهای کممنبع برای مدلهای زبانی گفتار - بخش 2 14:28
-
کدها 7.5 - تنظیم دقیق مدل XLS-R برای ASR + طبقهبندی احساسات با SpecAugment 09:19
-
آزمون 7.5 مدیریت زبانهای کممنبع برای مدلهای زبانی گفتار None
-
توسعه SpeechLMهای بلادرنگ و دوطرفه - بخش 1 18:55
-
توسعه SpeechLMهای بلادرنگ و دوطرفه - بخش 2 14:28
-
کدها 7.6 - استریمینگ ASR با ترنسفورمر علی با تاخیر کم + VAD برای سیستمهای Barge-In 07:45
-
آزمون 7.6 توسعه SpeechLMهای بلادرنگ و دوطرفه None
-
پرداختن به نگرانیهای ایمنی و اخلاقی در SpeechLMها - بخش 1 10:51
-
پرداختن به نگرانیهای ایمنی و اخلاقی در SpeechLMها - بخش 2 12:55
-
کدها 7.7 - ارزیابی سوگیری در ASR، عدالت در لهجه + تعدیل TTS با فیلترینگ محتوای سمی 08:58
-
آزمون 7.7 پرداختن به نگرانیهای ایمنی و اخلاقی در SpeechLMها None
مشخصات آموزش
تسلط به مدلهای زبانی گفتار: از ASR تا هوش مصنوعی احساسی
- تاریخ به روز رسانی: 1404/10/04
- سطح دوره:همه سطوح
- تعداد درس:145
- مدت زمان :19:29:25
- حجم :6.5GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy