اسکریپ محتوا از چندین سایت خبری و ترکیب آن در یک خروجی
دسترسی همزمان و دستهبندیشده به اخبار از منابع مختلف، برای بسیاری از کاربران حرفهای، تحلیلگران رسانه و روزنامهنگاران اهمیت زیادی دارد. معمولاً باید بین چند سایت خبری جابهجا شوند، اما اگر بتوان محتوا را از این سایتها اسکریپ کرده و در یک خروجی یکپارچه نمایش داد، نهتنها زمان صرفهجویی میشود، بلکه امکان مقایسه، تحلیل و دستهبندی سریعتری نیز فراهم خواهد شد.
در این مقاله، به بررسی یک پروژه واقعی و عملی برای اسکریپ اخبار از چند سایت خبری ایرانی و ترکیب خروجیها در قالبی واحد خواهیم پرداخت.

بخش اول: هدف پروژه چه بود؟
این پروژه با هدف ساخت یک منبع خبری جمعی طراحی شد تا بتواند:
- از چند سایت خبری معتبر بهصورت خودکار تیتر و لینک آخرین خبرها را جمعآوری کند
- محتوای کوتاه یا لید خبر را نیز همراه با تیتر نمایش دهد
- اخبار را بر اساس زمان یا دستهبندی موضوعی مرتب کند
- خروجیای مناسب برای ارسال به خبرنامه یا نمایش در داشبورد شخصی ارائه دهد
سایتهای مورد هدف شامل سایتهایی مثل ایسنا، تسنیم، خبرگزاری مهر، ایلنا و انتخاب بودند.
بخش دوم: طراحی ساختار جمعآوری
در ابتدا ساختار کلی سایتهای خبری بررسی شد تا مشخص شود اطلاعات مورد نیاز (مثل تیتر، لینک، لید و تاریخ خبر) در کجای HTML قرار دارند. اگرچه ظاهر سایتها متفاوت بود، اما ساختار انتشار اخبار اغلب شباهتهایی داشت:
- هر خبر در یک عنصر جداگانه قرار دارد
- تیتر معمولاً درون تگهای
<h2>
یا<a>
ذخیره شده - لید خبر (خلاصه اولیه) بهصورت متن کوتاه زیر تیتر قرار دارد
- لینک خبر یا بهصورت کامل (absolute) یا نسبی (relative) درج شده
با توجه به این ساختار، برای هر سایت اسکریپت جمعآوری اختصاصی طراحی شد، که بدون دخالت دستی قابل اجرا بود.
بخش سوم: چالشهای فنی و اجرایی
▪ تفاوت طراحی در سایتها
گرچه محتوای خبر مشابه بود، اما هر سایت نحوه نمایش خاص خود را داشت. این باعث شد که استخراج یکپارچه نیاز به چند تنظیم مجزا داشته باشد.
▪ زمانبندی اخبار و جلوگیری از تکرار
برای جلوگیری از نمایش دوباره اخبار قبلی، اسکریپت باید زمان یا لینک هر خبر را ذخیره و بررسی کند که آیا این خبر جدید است یا قبلاً در خروجی آمده است.
▪ تشخیص دستهبندی موضوعی
برخی سایتها دستهبندی خبر را بهصورت برچسب در HTML مشخص میکنند. این اطلاعات در ساخت خروجی نهایی برای فیلتر کردن اخبار کمک زیادی میکند.
بخش چهارم: ترکیب خروجیها در قالب واحد
تمام دادههای استخراجشده از سایتهای مختلف در قالبی واحد قرار گرفتند. ساختار نهایی هر خبر در خروجی شامل این موارد بود:
- نام منبع (مثلاً ایسنا یا مهر)
- تیتر خبر
- لید خبر (در حد یک یا دو جمله)
- لینک مستقیم به خبر
- زمان درج خبر
- دستهبندی موضوعی (اختیاری)
خروجی بهصورت JSON ذخیره میشد تا بتوان از آن در اپلیکیشنهای مختلف (مثلاً یک خبرنامه ایمیلی یا داشبورد خبری ساده) استفاده کرد.
در نسخههای بعدی، حتی امکان ارسال خودکار این اخبار به یک کانال تلگرام یا ساخت نسخه HTML برای سایت فراهم شد.
جمعبندی
پروژه اسکریپ اخبار از چندین سایت خبری نشان داد که با استفاده هوشمندانه از وب اسکریپینگ، میتوان بدون وابستگی به API رسمی، یک فید خبری قابل مدیریت و بهروز ساخت. این کار برای پژوهشگران، دانشجویان، خبرنگاران و توسعهدهندگان محتوا میتواند ابزار قدرتمندی باشد.
اگر شما هم علاقهمند به ساخت یک منبع خبری یکپارچه یا تجربهای در زمینه اسکریپ محتوا از سایتهای خبری دارید، حتماً نظرات خود را در بخش دیدگاهها با ما به اشتراک بگذارید. 👇