تلاش برای مسدودسازی یک نشانی اینترنتی فیشینگ در پلتفرم ذخیرهسازی اشیای R2 Cloudflare روز گذشته نتیجه معکوس داد و باعث قطعی گستردهای شد که به مدت تقریباً یک ساعت چندین سرویس را از کار انداخت.
Cloudflare R2 یک سرویس ذخیرهسازی اشیا مشابه Amazon S3 است که برای ذخیرهسازی دادهها بهصورت مقیاسپذیر، بادوام و کمهزینه طراحی شده است. این سرویس بازیابی دادهها را بدون هزینه ارائه میدهد، با S3 سازگار است، از تکثیر داده در چندین موقعیت مکانی پشتیبانی میکند و با خدمات Cloudflare یکپارچه شده است.
این قطعی روز گذشته زمانی رخ داد که یکی از کارکنان به گزارشی درباره سوءاستفاده از یک نشانی اینترنتی فیشینگ در پلتفرم R2 Cloudflare پاسخ داد. بااینحال، بهجای مسدودسازی نقطهپایانی مشخص، این کارمند به اشتباه کل سرویس R2 Gateway را غیرفعال کرد.
بر اساس گزارش پس از حادثهی Cloudflare : در جریان یک فرایند معمول رسیدگی به سوءاستفاده، اقدامی بر اساس یک شکایت انجام شد که بهطور ناخواسته سرویس R2 Gateway را غیرفعال کرد، بهجای اینکه فقط نقطه پایانی یا باکتی را که به گزارش مربوط بود مسدود کند.
این یک شکست در چندین سطح کنترلی سیستم (در درجه اول) و همچنین در آموزش اپراتور بود.
این حادثه به مدت ۵۹ دقیقه، از ساعت ۰۸:۱۰ تا ۰۹:۰۹ به وقت جهانی (UTC) ادامه داشت و علاوه بر خود سرویس ذخیرهسازی اشیای R2، خدمات دیگری را نیز تحت تأثیر قرار داد، از جمله:
- در Stream، ۱۰۰٪ شکست (failure) در آپلود و پخش ویدیوها رخ داده است.
- در بخش Images ، ۱۰۰٪ شکست (failure) در آپلود و دانلود تصاویر رخ داده است.
- ذخیره پنهان (Cache Reserve) – ۱۰۰٪ شکست در عملیات، که باعث افزایش درخواستها به منبع اصلی شده است.
- وکتورسازی (Vectorize) – ۷۵٪ شکست در اجرای پرسوجوها (queries)، ۱۰۰٪ شکست در عملیات درج (insert)، بهروزرسانی (upsert) و حذف (delete).
- تحویل لاگها (Log Delivery) – تأخیر و از دست رفتن دادهها: تا ۱۳.۶٪ از دادههای مربوط به لاگهای R2 از بین رفتهاند و تا ۴.۵٪ از دادههای مربوط به سایر فرآیندهای تحویل لاگ نیز از دست رفتهاند.
- ممیز شفافیت کلید (Key Transparency Auditor) – ۱۰۰٪ شکست در انتشار امضاها و عملیات خواندن.
برخی از سرویسها نیز بهطور غیرمستقیم تحت تأثیر قرار گرفتند و دچار شکستهای جزئی شدند، مانند:
Durable Objects که افزایش ۰.۰۹٪ در نرخ خطا داشت، این مشکل به دلیل اتصال مجدد پس از بازیابی رخ داده است.
Cache Purge که ۱.۸٪ افزایش در خطاهای (HTTP 5xx) داشت و همچنین افزایش ۱۰ برابری در تأخیر (latency spike) تجربه کرد.
Workers & Pages که ۰.۰۰۲٪ از عملیات استقرار (deployment) آنها با شکست مواجه شد، البته فقط پروژههایی تحت تأثیر قرار گرفتند که از R2 bindings استفاده میکردند.
Cloudflare اشاره میکند که هم خطای انسانی و هم نبود اقدامات حفاظتی، مانند بررسیهای اعتبارسنجی برای اقدامات پرخطر، عوامل کلیدی در وقوع این حادثه بودهاند.
این شرکت اکنون اصلاحات فوری را اعمال کرده است، از جمله حذف امکان غیرفعال کردن سیستمها در رابط بررسی سوءاستفاده و اعمال محدودیتهایی در API مدیریت (Admin API) برای جلوگیری از غیرفعال شدن سرویسها در حسابهای داخلی.
اقدامات اضافی که در آینده اجرا خواهند شد شامل بهبود فرآیند ایجاد حسابها، اعمال کنترلهای دسترسی سختگیرانهتر، و اجرای فرآیند تأیید دوطرفه برای اقدامات پرخطر هستند.
در نوامبر ۲۰۲۴، Cloudflare دچار یک قطعی قابلتوجه دیگر به مدت ۳.۵ ساعت شد که منجر به از دست رفتن غیرقابلبازیابی ۵۵٪ از تمام لاگهای سرویس گردید.
آن حادثه به دلیل شکستهای زنجیرهای در سیستمهای خودکار کاهش خطر Cloudflare رخ داد که با انتشار یک پیکربندی اشتباه به یک مؤلفه کلیدی در مسیر پردازش لاگهای شرکت آغاز شد.