متن کاوی و تشخیص کاراکتر نوری با پایتون
✅ سرفصل و جزئیات آموزش
آنچه یاد خواهید گرفت:
- آشنایی با اصول اولیه متن کاوی و یوزکیسهای آن
- آشنایی با اصول اولیه شناسایی کاراکتر نوری و یوزکیسهای آن
- یادگیری نحوه عملکرد متن کاوی - این بخش شامل جمعآوری داده، پیشپردازش متن، استخراج ویژگی، تحلیل متن و مدلسازی است.
- یادگیری نحوه عملکرد شناسایی کاراکتر نوری - این بخش شامل پیشپردازش تصویر، محلیسازی متن، بخشبندی کاراکتر و شناسایی کاراکتر است.
- یادگیری نحوه انجام توکنسازی و حذف stopwords با استفاده از NLTK
- یادگیری نحوه انجام stemming ،lemmatization و محلیسازی متن با استفاده از NLTK
- یادگیری نحوه ساخت سیستم شناسایی انتیتی نامگذاری شده با استفاده از Spacy و Flair
- یادگیری نحوه انجام مدلسازی موضوع با استفاده از Gensim و LDA
- یادگیری نحوه ساخت سیستم طبقهبندی مقالات خبری با استفاده از TF-IDF
- یادگیری نحوه ساخت خلاصهساز متن با استفاده از ترنسفرمرها و BART
- یادگیری نحوه استخراج کلمات کلیدی با استفاده از Rake NLTK و Spacy
- یادگیری نحوه انجام تحلیل احساسات با استفاده از TextBlob و BERT
- یادگیری نحوه ساخت ابزار شناسایی سرقت ادبی با استفاده از TF-IDF و شباهت کسینوسی
- یادگیری نحوه ساخت ابزار شناسایی ایمیلهای اسپم با استفاده از ماشین بردار پشتیبان (SVM)
- یادگیری نحوه انجام پردازش تصویر و شناسایی ناحیه مورد نظر
- یادگیری نحوه ساخت سیستم شناسایی پلاک خودرو با استفاده از EasyOCR
- یادگیری نحوه ساخت سیستم شناسایی دستخط با استفاده از EasyOCR
- یادگیری نحوه ساخت سیستم اسکن رسید با استفاده از Tesseract
پیشنیازهای دوره
- تجربه قبلی در استخراج متن نیاز نیست.
- تجربه قبلی در شناسایی کاراکتر نوری نیاز نیست.
- دانش اولیه از پایتون و Pandas
توضیحات دوره
به دوره «متن کاوی و شناسایی کاراکتر نوری با پایتون» خوش آمدید! این دوره جامع و پروژه محور است که در آن به صورت گام به گام یاد خواهید گرفت که چگونه تکنیکهای پیشرفته متن کاوی را با استفاده از پردازش زبان طبیعی انجام دهید.
علاوه بر این، شما یک سیستم شناسایی کاراکتر نوری با استفاده از چندین کتابخانه پایتون مانند EasyOCR و Tesseract خواهید ساخت. این سیستم OCR قابلیت استخراج متن از انواع مختلف مستندات و تصاویر را دارد. این دوره به خوبی متن کاوی و بینایی کامپیوتری را ترکیب میکند و فرصت ایدهآلی برای تمرین مهارتهای برنامهنویسی خود با ساخت پروژههای پیچیده با کاربردهای واقعی ارائه میدهد.
در جلسه معرفی، با اصول اولیه متن کاوی و شناسایی کاراکتر نوری، از جمله آشنایی با یوزکیسهای آنها، نحوه عملکرد این فناوریها، چالشها و محدودیتهای فنی آشنا خواهید شد. سپس در جلسه بعد، مجموعه دادههای متنی را از Kaggle دانلود خواهیم کرد که شامل صدها یا حتی هزاران متن بدون ساختار خواهد بود. قبل از شروع پروژه، با تکنیکهای اولیه متن کاوی مانند توکنسازی، حذف stopwords و stemming و lemmatization و نرمالسازی متن آشنا خواهیم شد. این بخش بسیار مهم است زیرا درک اولیه از متن کاوی را به شما میدهد.
سپس، بخش پروژه را شروع خواهیم کرد. برای استخراج متن، ما هشت پروژه خواهیم داشت. در پروژه اول، سیستم شناسایی انتیتی نامگذاری شده برای مقالات خبری خواهیم ساخت. در پروژه دوم، سیستم مدلسازی موضوع برای تحقیقات علمی خواهیم ایجاد کرد. در پروژه سوم، طبقهبندی و دستهبندی مقالات خبری را با استفاده از TF-IDF خواهیم ساخت. در پروژه چهارم، سیستم خلاصهسازی متن برای مقالات تحقیقاتی خواهیم ساخت. در پروژه پنجم، سیستم استخراج کلمات کلیدی برای ابزار بهینهسازی موتور جستجو ایجاد خواهیم کرد. در پروژه ششم، تحلیل احساسات روی بررسی محصولات خواهیم انجام داد. در پروژه هفتم، ابزار شناسایی سرقت ادبی خواهیم ساخت و در پروژه آخر، سیستم طبقهبندی ایمیلهای اسپم خواهیم ساخت.
در بخش بعدی، تکنیکهای پایه مورد نیاز برای OCR مانند پردازش تصویر و شناسایی ناحیه مورد توجه را خواهیم آموخت. در ضمن، برای OCR، ما سه پروژه خواهیم داشت. در پروژه اول، سیستم شناسایی پلاک خودرو خواهیم ساخت. در پروژه دوم، سیستم شناسایی دستخط ایجاد خواهیم کرد و در پروژه آخر، سیستم اسکن رسید خواهیم ساخت.
در ابتدا، قبل از ورود به دوره، باید از خود این سوال را بپرسیم: چرا باید درباره متن کاوی و شناسایی کاراکتر نوری بیاموزیم؟ جواب ما این است: متن کاوی و شناسایی کاراکتر نوری برای تبدیل داده متنی بدون ساختار به بینشهای ارزشمند ضروری هستند و به کسبوکارها و پژوهشگران اجازه میدهند که حجم وسیعی از اطلاعات را به طور مؤثر تحلیل و تفسیر کنند.
این فناوریها نقش حیاتی در خودکارسازی فرآیندهای استخراج داده و تحلیل داده ایفا میکنند و تلاشهای دستی را کاهش داده و دقت را افزایش میدهند. بعلاوه، در زمینههایی مانند مراقبتهای بهداشتی، امور مالی و حقوقی، متن کاوی و OCR برای مدیریت حجم زیادی از مستندات، استخراج اطلاعات مربوطه و اطمینان از رعایت الزامات قانونی ضروری هستند.
علاوه بر این، با تسلط به این تکنیکها، خود را با مهارتهای لازم برای توسعه اپلیکیشنهای داده محور پیشرفته تجهیز کرده و در نهایت توانایی خود را برای حل مسائل پیچیده واقعی از طریق علم داده و هوش مصنوعی افزایش میدهیم.
مواردی که میتوانید از این دوره انتظار داشته باشید:
- آشنایی با اصول اولیه متن کاوی و یوزکیسهای آن
- آشنایی با اصول اولیه شناسایی کاراکتر نوری و یوزکیسهای آن
- یادگیری نحوه عملکرد متن کاوی - این بخش شامل جمعآوری داده، پیشپردازش متن، استخراج ویژگی، تحلیل متن و مدلسازی است.
- یادگیری نحوه عملکرد شناسایی کاراکتر نوری - این بخش شامل ضبط تصویر، پیشپردازش، محلیسازی متن، بخشبندی کاراکتر، شناسایی کاراکتر و تولید خروجی است.
- یادگیری نحوه انجام توکنسازی و حذف stopwords با استفاده از NLTK
- یادگیری نحوه stemming ،lemmatization و محلیسازی متن با استفاده از NLTK
- یادگیری نحوه ساخت سیستم شناسایی انتیتی نامگذاری شده با استفاده از Spacy و Flair
- یادگیری نحوه انجام مدلسازی موضوع با استفاده از Gensim و LDA
- یادگیری نحوه ساخت سیستم طبقهبندی مقالات خبری با استفاده از TF-IDF
- یادگیری نحوه ساخت خلاصهساز متن با استفاده از ترنسفرمرها و BART
- یادگیری نحوه استخراج کلمات کلیدی با استفاده از Rake NLTK و Spacy
- یادگیری نحوه انجام تحلیل احساسات با استفاده از TextBlob و BERT
- یادگیری نحوه ساخت ابزار شناسایی سرقت ادبی با استفاده از TF-IDF و شباهت کسینوسی
- یادگیری نحوه ساخت ابزار شناسایی ایمیلهای اسپم با استفاده از ماشین بردار پشتیبان
- یادگیری نحوه انجام پردازش تصویر و شناسایی ناحیه مورد نظر
- یادگیری نحوه ساخت سیستم شناسایی پلاک خودرو با استفاده از EasyOCR
- یادگیری نحوه ساخت سیستم شناسایی دستخط با استفاده از EasyOCR
- یادگیری نحوه ساخت سیستم اسکن رسید با استفاده از Tesseract
این دوره برای چه کسانی مناسب است؟
- افرادی که علاقهمند به یادگیری متن کاوی هستند.
- افرادی که علاقهمند به یادگیری شناسایی کاراکتر نوری هستند.
متن کاوی و تشخیص کاراکتر نوری با پایتون
-
آشنایی با دوره 06:56
-
فهرست مطالب 07:22
-
مخاطب این دوره چه کسانی هستند؟ 03:03
-
ابزارها، IDE و مجموعه دادهها 08:52
-
آشنایی با متن کاوی 06:51
-
آشنایی با تشخیص کاراکتر نوری 07:01
-
یافتن و دانلود مجموعه دادهها از Kaggle 03:57
-
توکنسازی و حذف Stopwords با NLTK 08:08
-
Stemming ،Lemmatization و نرمالسازی متن با NLTK 10:14
-
ساخت سیستم شناسایی انتیتی نامگذاری شده با استفاده از Spacy و Flair 08:40
-
مدلسازی موضوع با Gensim و LDA 16:32
-
طبقهبندی مقالات خبری با TF-IDF 24:36
-
خلاصهسازی متن با ترنسفرمرها و BART 19:11
-
استخراج کلمات کلیدی با Rake NLTK و Spacy 10:58
-
تحلیل احساسات با TextBlob و BERT 13:30
-
ساخت ابزار تشخیص سرقت ادبی با TF-IDF و شباهت کسینوسی 09:38
-
ساخت ابزار تشخیص ایمیل اسپم با SVM 20:53
-
پردازش تصویر و شناسایی ناحیه مورد نظر 13:38
-
ساخت سیستم شناسایی پلاک خودرو با EasyOCR 10:27
-
ساخت سیستم شناسایی دستخط با EasyOCR 07:33
-
اسکن رسید با Tesseract 10:52
-
نتیجه و خلاصه 03:35
مشخصات آموزش
متن کاوی و تشخیص کاراکتر نوری با پایتون
- تاریخ به روز رسانی: 1404/06/14
- سطح دوره:همه سطوح
- تعداد درس:22
- مدت زمان :03:52:27
- حجم :1.36GB
- زبان:دوبله زبان فارسی
- دوره آموزشی:AI Academy