نقص فنی در شرکت خدمات ابری فستلی و سردرگمی چند ساعته مشتریان

شرکت ارایه‌دهنده خدمات ابری فستلی (Fastly) با یک نقص فنی در سیستم‌های خود مواجه شد. در پی این نقص که ناشی از خطای نرم‌افزاری بود، شبکه تحویل محتوای فستلی از دسترس خارج شده و بسیاری از کاربران آن در سطح جهان قادر به دریافت خدمات نبودند.

با وجود آنکه این آسیب‌پذیری به سرعت شناسایی و برطرف شد ولی باعث شد تعدادی از کارشناسان فناوری اطلاعات هشدار دهند که اگرچه ارایه خدمات بر اساس فناوری ابر شاید مقرون به صرفه‌تر بوده و قابلیت اطمینان بیشتری را نیز فراهم ‌کند اما از طرف دیگر یک نقطه خرابی واحد (Single Point of Failur) ایجاد می‌کند. در نتیجه اگر مشکلی در چنین شرکت هایی ایجاد شود، بسیاری از کاربران آنها در صورتی که راهکارهای پشتیبانی لازم را پیاده‌سازی نکرده باشند با چالش های جدی روبرو خواهند شد.

 

شرح ماجرا

Nick Rockwell مدیر ارشد مهندسی و زیرساخت فستلی در خصوص مشکل به وقوع پیوسته می‌گوید: «در هشتم ژوئن 2021 پس از بروز یک خطای نرم‌افزاری، سرویس‌های ما در سطح جهان از دسترس خارج شد و تغییرات غیرعادی در یکی از سیستم‌ها رخ داد. تیم امنیتی حدوداً یک دقیقه پس از بروز این مشکل متوجه آن شد. آنها سپس علت مسأله را شناسایی و سیستم مورد نظر را غیرفعال کردند. پس از 49 دقیقه، 95 درصد از شبکه ما مطابق روال گذشته به فعالیت خود ادامه داد».

با این وجود پس از رفع مشکل همچنان کاربران با اختلالاتی مواجه بودند. فستلی هم در گزارشی که پس از برطرف سازی مشکل ارایه نموده به مشتریانش هشدار داد که ممکن است تا مدتی شاهد افت سرعت بارگذاری مبدأ (Origin Load) و نرخ برخورد کش [1] باشند.

تیم امنیتی فستلی هنوز جزئیات کاملی از نوع خطای رخ داده منتشر نکرده است. بنابر گفته Rockwell: «شرکت ما سرویس‌های مهمی ارایه نموده و هرگونه اقدامی که منجر به ایجاد اختلال در سرویس‌ها شود را با اولویت و حساسیت بالا بررسی می‌کند. به دلیل بروز این وقفه از مشتریان‌مان و افراد وابسته به آنها عذرخواهی می‌کنیم و از پشتیبانی و حمایت آنها سپاسگزاریم».

شبکه‌های تحویل محتوا [2] با هدف قرار دادن محتوای مورد تقاضای کاربران بر روی سرورهایی که از لحاظ موقعیت مکانی به آنها نزدیک هستند پیاده‌سازی شده‌اند. وقتی کاربران از وب سایتی بازدید می‌کنند که در چنین شبکه‌ای میزبانی می‌شود، اگرچه آدرس آن سایت را طبق روال عادی وارد می‌کنند ولی معمولاً در پشت صحنه، این درخواست به سمت زیرساخت شبکه تحویل محتوا هدایت می‌شود. اگر این زیرساخت دچار خرابی یا اختلال شود ممکن است کاربران نتوانند به وب سایت میزبانی شده در این شبکه دسترسی پیدا کنند.

البته چنین مشکلاتی در همه شبکه‌های تحویل محتوا حتی در شبکه‌های بزرگی مثل کلاودفلیر، آمازون کلود‌فرانت، آکامای و سایرین تاکنون وجود داشته است.

 

چالش‌های متمرکزسازی

David Warburton کارشناس زیرساخت و محقق تهدیدات سایبری شرکت امنیتی F5 Labs می‌گوید: «حادثه نقص فنی شرکت فستلی به ما یادآوری کرد که اینترنت باید غیرمتمرکز [3] باشد تا اگر تعدادی از سیستم‌ها دچار نقص شدند، همچنان امکان برقراری ارتباط وجود داشته باشد». او همچنین گفته: «آنچه که در دهه گذشته شاهد آن بوده ایم متمرکز شدن ناخواسته بسیاری از سرویس‌های بزرگ بر روی زیرساخت شرکت‌های ارایه‌دهنده راهکارهای ابری مثل شبکه‌های تحویل محتوا و فروشندگان زیرساخت بوده است».

در یک دهه اخیر سازمان‌های بیشتری متکی بر برنامه‌های کاربردی تحت ابر مثل سیلزفورس، سرویس‌نو و اسکوئر شده‌اند. بسیاری از سرویس‌ها و برنامه‌های کاربردی از جمله وب سرویس‌های آمازون، مایکروسافت آژور و گوگل کلود بر روی زیرساخت مبتنی بر ابر کار می‌کنند.

ارایه‌دهندگان سرویس‌های نرم‌افزاری و سازمان‌ها معمولاً برای ارتقای سطح دسترسی به سایت‌ها و سرویس‌های خودشان از شبکه‌های تحویل محتوا (مثل کلاودفلیر، فستلی، آمازون کلود‌فرانت، آکامای، KeyCDN و شبکه تحویل محتوای مایکروسافت آژور که در این زمینه فعالیت دارند) استفاده می‌نمایند. همان‌طور که گفتیم چنین رویکردی منجر به ایجاد مدل‌های متمرکز و شکل‌گیری نقاط خرابی واحد می‌شود.

Warburton می‌گوید: «در مدل استقرار برنامه‌های کاربردی اینترنتی سنتی، از دسترس خارج شدن یک سرور یا پیکربندی نادرست یک برنامه کاربردی باعث قطع دسترسی به یک سایت خاص می‌شد اما در شرایط فعلی و با استفاده از راهکارهای تحت ابر ممکن است قطع دسترسی به چنین زیرساخت‌هایی باعث ایجاد اختلال در سرویس‌دهی به همه مشتریان آنها شود. در نتیجه به جای خارج شدن یک سایت، صدها هزار سایت از دسترس خارج می‌شوند. چنین مشکلی می‌تواند پیامدهای مخرب و تأثیرگذار جدی بر تجربیات دیجیتالی کاربران، درآمد و شهرت سازمان‌ها داشته باشد».

علاوه بر شبکه‌های تحویل محتوا ممکن است ارایه‌دهندگان خدمات به چنین شبکه‌هایی هم دچار مشکل شوند. در سال 2020 میلادی، شرکت مخابراتی CenturyLink چند ساعت از دسترس خارج شد و همین مشکل باعث قطع دسترسی به سایت‌هایی همچون کلاودفلیر، دیسکورد، فیدلی، هولو، شبکه پلی‌استیشن، ایکس‌باکس لایو و سایت‌های مختلف دیگر گردید. خارج شدن کلاودفلیر از دسترسی، منجر به از دسترس خارج شدن ده‌ها مشتری شبکه تحویل محتوای این شرکت شد. چنین اتفاقی در سال 2020 میلادی با خارج شدن کلاودفلیر از دسترسی هم تکرار شد و این شرکت خطای پیکربندی را عامل بروز این مشکل بیان کرد.

 

برنامه‌ریزی برای انعطاف‌پذیری شبکه

شرکت‌هایی که متکی بر شبکه‌های تحویل محتوا هستند باید در طرح‌های مدیریت مخاطرات‌شان چنین مسائلی را در نظر داشته باشند. بر اساس گفته Brian Honan مدیر و مشاور امنیت سایبری در یک شرکت امنیتی: «سازمان‌ها باید راهکارهایی را که پیاده‌سازی می‌کنند ارزیابی نموده و تأثیر هرگونه قطع دسترسی به شبکه تحویل محتوای مورد استفاده شان بر سیستم‌ها و سرویس‌های خود را مشخص کنند. این ارزیابی‌ها تعیین می کنند که آیا به پیاده‌سازی کنترل‌های امنیتی بیشتر برای کاهش مخاطرات قطع دسترسی نیاز است یا خیر؟».

Kris Beevers مدیرعامل شرکت NS1 که راهکارهای هوش سایبر و خودکارسازی ترافیک برنامه‌های کاربردی را ارایه می کند، می‌گوید: «NSI دائماً با مشتریان مختلف همکاری می‌کند تا طرح‌های مقاومت شبکه برای پیشگیری از قطع دسترسی یا به حداقل رساندن تأثیر این مشکلات را طراحی نمایند». او تأکید می‌کند داشتن درک مناسبی از قوانین مربوط به این حوزه و راهکارهای خودکارسازی آن ضروری است.

وی همچنین گفته که: «فقط داشتن چند شبکه تحویل محتوا به تنهایی کافی نیست چون باید از راهکارهای خودکارسازی استفاده نموده و برای کاهش مخاطرات امنیتی، این راهکارها را به درستی پیکربندی کنید. مثلاً داشتن یک شبکه تحویل محتوا برای محتوای ایستا و یک شبکه برای محتوای پویا این مشکل را حل نمی‌کند». از این رو یک راهکار باید شامل پیاده‌سازی زیرساخت با استفاده از راهکارهای چندین شرکت و استفاده از ابزارهای خودکار تغییر مسیر ترافیک برای پشتیبانی از آنها باشد.

بعضی از سازمان‌ها بر اساس سطح مقاومت در برابر مخاطرات شان راهکارهای کامل‌تری را انتخاب می‌کنند که شامل استفاده از چندین شبکه تحویل محتوا و زیرساخت های مختلف است. Beevers می‌گوید: «برای شرکت‌هایی که هیچ‌گونه از کار افتادگی یا افت سرویس‌دهی در آنها قابل قبول نیست، تیم‌های شبکه و برنامه‌های کاربردی می‌توانند سیاست‌های پویایی طراحی کنند تا در چنین مواقعی ترافیک را به صورت خودکار تغییر جهت دهند. به این ترتیب قطع دسترسی به سرویس‌های مورد استفاده‌شان دیگر تأثیری بر مشتریان و برنامه‌های کاربردی آنها نخواهد داشت. این رویکرد در کنار استفاده از زیرساخت‌های پشتیبان، پیکربندی‌های مناسب و تغییر جهت پویای ترافیک باعث می‌شود شرکت‌ها و مشتریان آنها تحت تأثیر چنین مشکلاتی قرار نگیرند».

 

[1] بارگذاری مبدأ، به بار کاری بارگذاری شده بر روی سرورهای مشتریان گفته می‌شود. نرخ برخورد کش هم نشان دهنده تعداد دفعات موجود بودن داده‌های مورد تقاضا در کش است.

[2] طبق تعریف اتحادیه بین‌المللی مخابرات به هرگونه شبکه‌ای که برای تحویل محتوای دیجیتالی بهینه‌سازی شده باشد، شبکه تحویل محتوا گفته می شود. شبکه‌های تحویل محتوا معمولاً دارای سرورهایی هستند که در نقاط جغرافیایی مختلف توزیع و مستقر شده‌اند.

[3] اینترنت غیرمتمرکز به معنای استفاده از فناوری‌ها، پروتکل‌ها و برنامه های کاربردی وب توزیع‌ شده است.

 

منبع: bankinfosecurity

خروج از نسخه موبایل