قطعی Cloudflare به دلیل مسدودسازی ناموفق یک URL فیشینگ ایجاد شد.

قطعی Cloudflare به دلیل مسدودسازی ناموفق یک URL فیشینگ ایجاد شد.

تلاش برای مسدودسازی یک نشانی اینترنتی فیشینگ در پلتفرم ذخیره‌سازی اشیای R2 Cloudflare  روز گذشته نتیجه معکوس داد و باعث قطعی گسترده‌ای شد که به مدت تقریباً یک ساعت چندین سرویس را از کار انداخت.

Cloudflare R2 یک سرویس ذخیره‌سازی اشیا مشابه Amazon S3 است که برای ذخیره‌سازی داده‌ها به‌صورت مقیاس‌پذیر، بادوام و کم‌هزینه طراحی شده است. این سرویس بازیابی داده‌ها را بدون هزینه ارائه می‌دهد، با S3 سازگار است، از تکثیر داده در چندین موقعیت مکانی پشتیبانی می‌کند و با خدمات Cloudflare  یکپارچه شده است.

این قطعی روز گذشته زمانی رخ داد که یکی از کارکنان به گزارشی درباره سوءاستفاده از یک نشانی اینترنتی فیشینگ در پلتفرم R2 Cloudflare  پاسخ داد. بااین‌حال، به‌جای مسدودسازی نقطه‌پایانی مشخص، این کارمند به اشتباه کل سرویس R2 Gateway را غیرفعال کرد.

بر اساس گزارش پس از حادثه‌ی Cloudflare  : در جریان یک فرایند معمول رسیدگی به سوءاستفاده، اقدامی بر اساس یک شکایت انجام شد که به‌طور ناخواسته سرویس R2 Gateway را غیرفعال کرد، به‌جای اینکه فقط نقطه پایانی یا باکتی را که به گزارش مربوط بود مسدود کند.

این یک شکست در چندین سطح کنترلی سیستم (در درجه اول) و همچنین در آموزش اپراتور بود.

این حادثه به مدت ۵۹ دقیقه، از ساعت ۰۸:۱۰ تا ۰۹:۰۹ به وقت جهانی (UTC) ادامه داشت و علاوه بر خود سرویس ذخیره‌سازی اشیای R2، خدمات دیگری را نیز تحت تأثیر قرار داد، از جمله:

  • در Stream، ۱۰۰٪ شکست (failure) در آپلود و پخش ویدیوها رخ داده است.
  • در بخش Images ، ۱۰۰٪ شکست (failure) در آپلود و دانلود تصاویر رخ داده است.
  • ذخیره پنهان (Cache Reserve) – ۱۰۰٪ شکست در عملیات، که باعث افزایش درخواست‌ها به منبع اصلی شده است.
  • وکتورسازی (Vectorize) – ۷۵٪ شکست در اجرای پرس‌وجوها (queries)، ۱۰۰٪ شکست در عملیات درج (insert)، به‌روزرسانی (upsert) و حذف (delete).
  • تحویل لاگ‌ها (Log Delivery) – تأخیر و از دست رفتن داده‌ها: تا ۱۳.۶٪ از داده‌های مربوط به لاگ‌های R2 از بین رفته‌اند و تا ۴.۵٪ از داده‌های مربوط به سایر فرآیندهای تحویل لاگ نیز از دست رفته‌اند.
  • ممیز شفافیت کلید (Key Transparency Auditor) – ۱۰۰٪ شکست در انتشار امضاها و عملیات خواندن.

برخی از سرویس‌ها نیز به‌طور غیرمستقیم تحت تأثیر قرار گرفتند و دچار شکست‌های جزئی شدند، مانند:

Durable Objects که افزایش ۰.۰۹٪ در نرخ خطا داشت، این مشکل به دلیل اتصال مجدد پس از بازیابی رخ داده است.

Cache Purge که ۱.۸٪ افزایش در خطاهای (HTTP 5xx) داشت و همچنین افزایش ۱۰ برابری در تأخیر (latency spike) تجربه کرد.

Workers & Pages که ۰.۰۰۲٪ از عملیات استقرار (deployment) آن‌ها با شکست مواجه شد، البته فقط پروژه‌هایی تحت تأثیر قرار گرفتند که از R2 bindings استفاده می‌کردند.

Cloudflare اشاره می‌کند که هم خطای انسانی و هم نبود اقدامات حفاظتی، مانند بررسی‌های اعتبارسنجی برای اقدامات پرخطر، عوامل کلیدی در وقوع این حادثه بوده‌اند.

این شرکت اکنون اصلاحات فوری را اعمال کرده است، از جمله حذف امکان غیرفعال کردن سیستم‌ها در رابط بررسی سوءاستفاده و اعمال محدودیت‌هایی در API مدیریت (Admin API) برای جلوگیری از غیرفعال شدن سرویس‌ها در حساب‌های داخلی.

اقدامات اضافی که در آینده اجرا خواهند شد شامل بهبود فرآیند ایجاد حساب‌ها، اعمال کنترل‌های دسترسی سخت‌گیرانه‌تر، و اجرای فرآیند تأیید دوطرفه برای اقدامات پرخطر هستند.

در نوامبر ۲۰۲۴، Cloudflare دچار یک قطعی قابل‌توجه دیگر به مدت ۳.۵ ساعت شد که منجر به از دست رفتن غیرقابل‌بازیابی ۵۵٪ از تمام لاگ‌های سرویس گردید.

آن حادثه به دلیل شکست‌های زنجیره‌ای در سیستم‌های خودکار کاهش خطر Cloudflare رخ داد که با انتشار یک پیکربندی اشتباه به یک مؤلفه کلیدی در مسیر پردازش لاگ‌های شرکت آغاز شد.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *