تکنیکهای پیشرفته برای دور زدن JavaScript سنگین
در بسیاری از پروژههای وباسکریپینگ، استخراج داده از صفحات ساده HTML نسبتاً آسان است. اما وقتی با وبسایتهایی روبهرو میشویم که دادهها را از طریق جاوااسکریپت بارگذاری میکنند، شرایط کاملاً متفاوت خواهد بود.
وبسایتهایی که از فریمورکهایی مانند React، Angular یا Vue استفاده میکنند، ابتدا صفحهای تقریباً خالی (HTML پایه) را نمایش میدهند و سپس با جاوااسکریپت، دادهها را بهصورت پویا وارد صفحه میکنند. در چنین شرایطی، روشهای ساده وباسکریپینگ به مشکل برمیخورند.
در این مقاله، به معرفی روشها و تکنیکهای پیشرفته برای دور زدن جاوااسکریپت در وب اسکریپینگ میپردازیم تا بتوانید حتی از صفحات پویا نیز داده استخراج کنید.

بخش اول: چرا جاوااسکریپت مانعی برای اسکریپینگ است؟
وقتی از کتابخانههایی مانند requests
یا BeautifulSoup
استفاده میکنید، تنها HTML اولیه صفحه را دریافت میکنید. اگر محتوای صفحه توسط جاوااسکریپت تولید شود:
- ممکن است دادهای در پاسخ وجود نداشته باشد
- دادهها بهصورت API از جای دیگری بارگیری شوند
- ساختار صفحه پویا و ناپایدار باشد
در چنین شرایطی، رندر کامل صفحه و اجرای جاوااسکریپت ضروری میشود.
بخش دوم: استفاده از مرورگرهای Headless برای رندر کامل
رایجترین و قویترین روش برای دور زدن جاوااسکریپت در وب اسکریپینگ استفاده از مرورگرهای headless مثل Selenium، Playwright یا Puppeteer است.
این ابزارها صفحه را دقیقاً مانند یک کاربر واقعی باز میکنند و تمام اسکریپتهای جاوااسکریپت را اجرا میکنند. در نتیجه، دادههایی که پس از بارگذاری ظاهر میشوند نیز قابلدسترسی خواهند بود.
مزایا:
- دسترسی به تمام دادههای بارگذاریشده
- امکان تعامل با صفحه (کلیک، اسکرول، انتخاب از منو)
- پشتیبانی از صفحات SPA (Single Page Application)
معایب:
- منابع بیشتری مصرف میکنند (رم و پردازنده)
- اجرای کندتر نسبت به روشهای ساده
بخش سوم: یافتن API پنهان یا درخواستهای شبکه
در بسیاری از سایتهای مدرن، اگرچه دادهها با جاوااسکریپت در صفحه نمایش داده میشوند، اما از طریق درخواستهای AJAX یا API از سرور دریافت شدهاند.
با استفاده از ابزار Inspect مرورگر، به تب Network بروید و بررسی کنید کدام درخواستها دادهی خام (معمولاً در قالب JSON) را بازمیگردانند.
روش کار:
- صفحه را در مرورگر باز کنید
- کلید F12 را بزنید و وارد تب “Network” شوید
- روی “XHR” یا “Fetch” فیلتر کنید
- دادههای دریافتی از سرور را بررسی کنید
- URL مربوط به API را در اسکریپت خود استفاده کنید
با این روش، بدون نیاز به رندر صفحه، مستقیماً به دادههای پردازشنشده دسترسی پیدا میکنید.
بخش چهارم: سایر تکنیکهای پیشرفته برای دور زدن جاوااسکریپت
۱. اجرای جاوااسکریپت با Pyppeteer یا Playwright در پایتون
برخی ابزارهای پیشرفتهتر مانند Playwright از قابلیتهای بیشتری نسبت به Selenium برخوردارند، از جمله:
- اجرای موازی صفحات
- شناسایی آسانتر رویدادهای DOM
- سرعت بیشتر در رندر صفحات پویا
۲. اسکرول و بارگذاری تدریجی (Lazy Load)
برخی دادهها تنها پس از اسکرول یا کلیک نمایان میشوند. ابزارهای headless این امکان را میدهند که:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
و سپس صبر کنید تا دادهها بارگذاری شوند.
۳. استفاده از فایلهای ذخیرهشده (Cache)
اگر صفحهای بارها اسکریپ میشود و تغییر چندانی ندارد، میتوانید یکبار با ابزارهای headless دادهها را ذخیره کرده و از فایلهای HTML برای پردازش بعدی استفاده کنید.
جمعبندی
صفحات مبتنی بر جاوااسکریپت بهطور فزایندهای رایج شدهاند و برای استخراج داده از آنها باید با تکنیکهای پیشرفتهتری نسبت به روشهای قدیمی کار کرد.
در این مقاله آموختیم که با استفاده از مرورگرهای Headless، بررسی درخواستهای شبکه و ابزارهایی مانند Playwright میتوان بهصورت مؤثر فرآیند دور زدن جاوااسکریپت در وب اسکریپینگ را انجام داد.
همیشه سعی کنید ابتدا بررسی کنید که آیا دادهها از طریق API در دسترس هستند یا نه—در این صورت، سادهترین و سریعترین مسیر را پیش گرفتهاید.
آیا شما هم با سایتهایی روبهرو شدهاید که با جاوااسکریپت سنگین کار میکنند؟ چگونه از آنها داده استخراج کردهاید؟ تجربههایتان را در بخش نظرات بنویسید. 👇