اسکریپ محتوا از چندین سایت خبری و ترکیب آن در یک خروجی

اسکریپ محتوا از چندین سایت خبری و ترکیب آن در یک خروجی

دسترسی هم‌زمان و دسته‌بندی‌شده به اخبار از منابع مختلف، برای بسیاری از کاربران حرفه‌ای، تحلیل‌گران رسانه و روزنامه‌نگاران اهمیت زیادی دارد. معمولاً باید بین چند سایت خبری جابه‌جا شوند، اما اگر بتوان محتوا را از این سایت‌ها اسکریپ کرده و در یک خروجی یکپارچه نمایش داد، نه‌تنها زمان صرفه‌جویی می‌شود، بلکه امکان مقایسه، تحلیل و دسته‌بندی سریع‌تری نیز فراهم خواهد شد.

در این مقاله، به بررسی یک پروژه واقعی و عملی برای اسکریپ اخبار از چند سایت خبری ایرانی و ترکیب خروجی‌ها در قالبی واحد خواهیم پرداخت.

بخش اول: هدف پروژه چه بود؟

این پروژه با هدف ساخت یک منبع خبری جمعی طراحی شد تا بتواند:

  • از چند سایت خبری معتبر به‌صورت خودکار تیتر و لینک آخرین خبرها را جمع‌آوری کند
  • محتوای کوتاه یا لید خبر را نیز همراه با تیتر نمایش دهد
  • اخبار را بر اساس زمان یا دسته‌بندی موضوعی مرتب کند
  • خروجی‌ای مناسب برای ارسال به خبرنامه یا نمایش در داشبورد شخصی ارائه دهد

سایت‌های مورد هدف شامل سایت‌هایی مثل ایسنا، تسنیم، خبرگزاری مهر، ایلنا و انتخاب بودند.

بخش دوم: طراحی ساختار جمع‌آوری

در ابتدا ساختار کلی سایت‌های خبری بررسی شد تا مشخص شود اطلاعات مورد نیاز (مثل تیتر، لینک، لید و تاریخ خبر) در کجای HTML قرار دارند. اگرچه ظاهر سایت‌ها متفاوت بود، اما ساختار انتشار اخبار اغلب شباهت‌هایی داشت:

  • هر خبر در یک عنصر جداگانه قرار دارد
  • تیتر معمولاً درون تگ‌های <h2> یا <a> ذخیره شده
  • لید خبر (خلاصه اولیه) به‌صورت متن کوتاه زیر تیتر قرار دارد
  • لینک خبر یا به‌صورت کامل (absolute) یا نسبی (relative) درج شده

با توجه به این ساختار، برای هر سایت اسکریپت جمع‌آوری اختصاصی طراحی شد، که بدون دخالت دستی قابل اجرا بود.

بخش سوم: چالش‌های فنی و اجرایی

▪ تفاوت طراحی در سایت‌ها

گرچه محتوای خبر مشابه بود، اما هر سایت نحوه نمایش خاص خود را داشت. این باعث شد که استخراج یکپارچه نیاز به چند تنظیم مجزا داشته باشد.

▪ زمان‌بندی اخبار و جلوگیری از تکرار

برای جلوگیری از نمایش دوباره اخبار قبلی، اسکریپت باید زمان یا لینک هر خبر را ذخیره و بررسی کند که آیا این خبر جدید است یا قبلاً در خروجی آمده است.

▪ تشخیص دسته‌بندی موضوعی

برخی سایت‌ها دسته‌بندی خبر را به‌صورت برچسب در HTML مشخص می‌کنند. این اطلاعات در ساخت خروجی نهایی برای فیلتر کردن اخبار کمک زیادی می‌کند.

بخش چهارم: ترکیب خروجی‌ها در قالب واحد

تمام داده‌های استخراج‌شده از سایت‌های مختلف در قالبی واحد قرار گرفتند. ساختار نهایی هر خبر در خروجی شامل این موارد بود:

  • نام منبع (مثلاً ایسنا یا مهر)
  • تیتر خبر
  • لید خبر (در حد یک یا دو جمله)
  • لینک مستقیم به خبر
  • زمان درج خبر
  • دسته‌بندی موضوعی (اختیاری)

خروجی به‌صورت JSON ذخیره می‌شد تا بتوان از آن در اپلیکیشن‌های مختلف (مثلاً یک خبرنامه ایمیلی یا داشبورد خبری ساده) استفاده کرد.

در نسخه‌های بعدی، حتی امکان ارسال خودکار این اخبار به یک کانال تلگرام یا ساخت نسخه HTML برای سایت فراهم شد.

جمع‌بندی

پروژه اسکریپ اخبار از چندین سایت خبری نشان داد که با استفاده هوشمندانه از وب اسکریپینگ، می‌توان بدون وابستگی به API رسمی، یک فید خبری قابل مدیریت و به‌روز ساخت. این کار برای پژوهشگران، دانشجویان، خبرنگاران و توسعه‌دهندگان محتوا می‌تواند ابزار قدرتمندی باشد.

اگر شما هم علاقه‌مند به ساخت یک منبع خبری یکپارچه یا تجربه‌ای در زمینه اسکریپ محتوا از سایت‌های خبری دارید، حتماً نظرات خود را در بخش دیدگاه‌ها با ما به اشتراک بگذارید. 👇

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.