تسلط به وب اسکرپینگ در پایتون: Requests و Scrapy و Selenium و هوش مصنوعی

معرفی
سرفصل

✅ سرفصل و جزئیات آموزش

آنچه یاد خواهید گرفت:

درک تفاوت‌های بین Requests و Scrapy و Selenium و زمان استفاده از هر کدام
استخراج داده با استفاده از XPath، انتخابگرهای CSS و اندپوینت‌های JSON مخفی از وب‌سایت‌های واقعی
ساخت ربات‌های اسکرپینگ قدرتمند با صفحه‌بندی، هدرها، جعل user-agent و چرخش IP
اسکرپ کردن داده از وب‌سایت‌های سنگین مبتنی بر JavaScript با استفاده از Selenium و بای پس کردن از موانع لاگین و کپچا
استفاده از پایپ‌لاین‌های Scrapy برای ذخیره داده‌های اسکرپ شده در فرمت‌های ساختاریافته مانند CSV و JSON و PostgreSQL
استفاده از ابزارهای هوش مصنوعی مانند ChatGPT و LLMهای محلی برای تولید خودکار اسکرپرها و تحلیل برنامه‌نویسی شده HTML

پیش‌نیازهای دوره

دانش اولیه Python (متغیرها، حلقه‌ها، توابع) مفید خواهد بود.
تجربه قبلی در وب اسکرپینگ لازم نیست. تمام مفاهیم از ابتدا توضیح داده می‌شوند.

توضیحات دوره

در این دوره جامع و عملی که همه چیز را از مبانی تا تکنیک‌های سطح حرفه‌ای پوشش می‌دهد، قدرت کامل وب اسکرپینگ را آزاد کنید. این دوره برای هر کسی که به وب اسکرپینگ با پایتون، اتوماسیون و استخراج داده علاقه‌مند است طراحی شده است و شما به سرعت از درک چگونگی کار اینترنت به ساخت اسکرپرهای پیشرفته و آماده برای استفاده در دنیای واقعی خواهید رسید.

کار را با تسلط به اصول اسکرپینگ آغاز کنید: مدل OSI، پروتکل‌های HTTP و HTTPS، امنیت TLS و استفاده از DevTools مرورگر برای تحلیل ترافیک شبکه. سپس به صورت عمیق کتابخانه Requests پایتون را بررسی کرده و با اطمینان داده‌های ساختاریافته را با استفاده از XPath استخراج کنید، اندپوینت‌های JSON مخفی را مدیریت کرده و با استفاده از هدرها و IPهای چرخشی، به زیبایی از سدهای ضد-اسکرپینگ بای پس کنید.

مهارت‌های خود را با بررسی در ابزارهای قدرتمندی مانند Scrapy، فریم‌ورک استاندارد صنعتی پایتون برای پروژه‌های خزش و استخراج داده در مقیاس بزرگ، ارتقا دهید. شما spiders و pipelines خواهید ساخت و PostgreSQL را برای مدیریت کارآمد مجموعه داده‌های عظیم ادغام خواهید کرد. با اتوماسیون Selenium، صفحات پویای سنگین مبتنی بر JavaScript را به راحتی مدیریت کنید. از دیوارهای لاگین بای پس کرده، CAPTCHAها را حل کنید و تسک ها را استخراج داده تعاملی را به صورت یکپارچه خودکارسازی نمایید.

به بررسی در اسکرپینگ پیشرفته مبتنی بر هوش مصنوعی بپردازید، از ابزارهایی مانند ChatGPT برای ساخت سریع اسکرپرهای هوشمند استفاده کنید و یاد بگیرید چگونه از LLMهای محلی (مانند Ollama) برای تحلیل HTML و خودکارسازی هوشمندانه استخراج داده استفاده کنید. و گردش های کاری اتوماسیون خود را به سطح بالاتری ببرید.

از طریق پروژه‌های عملی و واقعی که با دقت از صنایع پرتقاضا انتخاب شده‌اند، استراتژی‌های پیشرفته وب اسکرپینگ را کشف کرده و در عین حال، اقدامات چالش‌برانگیز ضد-ربات را به صورت اخلاقی و مؤثر مدیریت خواهید کرد. تنها با نیاز به مهارت‌های اولیه پایتون، به سرعت در استخراج داده‌های ارزشمند در مقیاس بزرگ مهارت پیدا خواهید کرد.

آیا آماده‌اید تا به وب اسکرپینگ مدرن، scrapy، اتوماسیون selenium مسلط شوید و از هوش مصنوعی برای تبدیل وب به مجموعه داده شخصی خود استفاده کنید؟ همین امروز در این دوره شرکت کنید و اولین قدم را برای تبدیل شدن به یک متخصص داده-محور و بسیار ماهر بردارید.

این دوره برای چه کسانی مناسب است؟

توسعه‌دهندگان پایتون در سطح مبتدی تا متوسط که به وب اسکرپینگ و اتوماسیون علاقه‌مند هستند.
تحلیلگران داده یا فریلنسرها که به دنبال استخراج داده‌های واقعی از وب‌سایت‌ها هستند.
توسعه‌دهندگان اتوماسیون مشتاق که قصد ساخت ربات‌های اسکرپینگ را دارند.
هر کسی که از کپی-پیست کردن داده‌ها خسته شده و آماده است تا آن را با پایتون خودکار کند.
علاقه‌مندان به هوش مصنوعی که به استفاده از LLMها برای کمک به تسک های اسکرپینگ علاقه دارند.

تسلط به وب اسکرپینگ در پایتون: Requests و Scrapy و Selenium و هوش مصنوعی

فصل 1: مقدمه‌ای بر اصول شبکه و اسکرپینگ

آنچه از این دوره خواهید گرفت 04:55
اینترنت چگونه کار می‌کند – 7 لایه OSI که وب را قدرت می‌بخش 04:27
تکامل HTTP – از نسخه 0.9 تا HTTP/3 + مقدمه‌ای بر HTTPS 08:50
رمزگشایی SSL/TLS – مقدمه‌ای بر HTTPS 04:51
بازرسی Browser Requests با DevTools 07:04
سایت‌های استاتیک در مقابل داینامیک – انتخاب ابزار اسکرپینگ مناسب 05:18

فصل 2: کتابخانه Requests: ساخت اصول قدرتمند اسکرپینگ

مقدمه‌ای بر کتابخانه Requests 04:17
استخراج داده با مبانی XPath 15:46
ساخت اولین اسکرپر با Requests 16:03
بهبود اسکرپرها با هدرها 04:10
اسکرپینگ داده‌های JSON از HTML پارس شده 11:36
اسکرپینگ در مقیاس بزرگ - بخش 1: قوانین، اخلاق و تاکتیک‌های شناسایی 02:30
اسکرپینگ در مقیاس بزرگ - بخش 2: استفاده از Wappalyzer برای شناسایی اولیه 01:11
اسکرپینگ در مقیاس بزرگ - بخش 3: چرا هدرها به تنهایی شکست می‌خورند؟ (دموی Amazon) 02:47
اسکرپینگ در مقیاس بزرگ - بخش 4: راه‌اندازی چرخش IP با DataImpulse 04:26
اسکرپینگ در مقیاس بزرگ - بخش 5: اسکرپینگ Multi-Threaded با ThreadPool 03:33
اسکرپینگ در مقیاس بزرگ - بخش 6: ذخیره داده‌های پاکسازی شده در PostgreSQL 07:42
دفاع‌های ضد-اسکرپینگ و چگونگی بای پس کردن از آن‌ها 07:50
فعالیت و تحلیل شبکه، گنجینه‌ای برای اسکرپرها 02:43
اسکرپینگ APIهای JSON با DevTools – پروژه پزشکان سلامت آمریکا 06:42
یافتن اندپوینت‌های API مخفی با Selenium Wire – مطالعه موردی DTC Lease 25:52
تحلیل ترافیک شبکه با MITMProxy 25:04
بهینه‌سازی اسکرپینگ با Bright Data 14:34
استفاده از نقشه‌های سایت برای اسکرپینگ کارآمد 04:55