אחרי התקלה של CrowdStrike: כיצד ארגונים נערכים להתאוששות מהירה מאסונות בעולמות אבטחת המידע

חלק מהארגונים בארץ ובעולם הצליחו להתאושש בתוך שעות אחדות מהתקלה העולמית של CrowdStrike וחלקם נאלצו לחכות שבועות עד התאוששות מלאה. מה מבדיל ביניהם בעצם?

{ IT ותשתיות }

כתב אורח

21.7.24

מאת מתן סיטבון, CTO באשנב מערכות מידע מקבוצת Aman

ביולי האחרון עדכון אבטחה למערכות של ענקית הסייבר האמריקאית CrowdStrike נשלח ללקוחות וגרם ל-BSOD – Blue Screen of Death. העדכון הביא לקריסה של שירותים, אפליקציות ואפילו מחשבי ושרתי Windows ברחבי העולם. פגיעה זו, שזכתה לשם "השבתת שירותי ה-IT הגדולה בהיסטוריה", פגעה באופן משמעותי בשירותים קריטיים ברחבי העולם, בהם חברות כמו Delta Airlines, שירותי החירום של 911, בנקים ברחבי העולם ורבים אחרים.

גם בישראל לא מעט ארגונים חוו את אותה ההשבתה. חלקם החזירו את כלל המערכות שנפגעו לתקיות מלאה תוך ימים או שבועות בודדים, חלקם היו צריכים רק לקח דקות ספורות ועד שעות בודדות כדי לחזור לשירות מלא.

איך יכול להיות שארגונים רבים, גדולים וחזקים טכנולוגית, שלהם מערכות ניהול סיכונים, אבטחת מידע ותשתיות מהטובות והמתוקצבות בעולם נפגעו, בזמן שארגונים אחרים חזרו לעבודה תוך מספר רגעים?

שוק ה-IT בישראל הוא שוק ותיק ומקצועי וסביר שרבים בו זוכרים תופעות דומות מהעבר. המשתנה החדש במגרש הוא ללא ספק חשיבות אבטחת המידע בארגון. מערכות העוסקות בניהול ושמירה על אבטחת המידע בארגון מנוהלות דרך ממשקי SaaS, המפיצים עדכוני אבטחת מידע על בסיס קבוע של 3-4 פעמים ביום ואף יותר, בהתאם לחשיבות ולמידות הסיכון. הארגון רוצה ואף צריך מערכות אבטחה מעודכנות ככל הניתן לאיומים.

נכון, בדיעבד ניתן היה לתזמן שהעדכונים ייכנסו למערכות הארגון מאוחר יותר, כדי לנסות להימנע ממקרים דומים, ואפילו להכניסם בצורה מדורגת: ראשית לסביבות נמוכות ולאחר מכן בהדרגה לסביבות הייצור. יחד עם זאת, לא ניתן למנוע מצבים בהם עדכון כזה או אחר עלול לגרום להשבתה שדורשת מענה מיידי.

מעדיפים תיקונים ידניים

קצב העבודה השתנה, כמות האיומים גדלה באופן ניכר, כמות כלי האבטחה היא כבר בעיה שצריכה כתבה משל עצמה. מה שבטוח הוא שיש מספיק מקום לטעויות אנוש, ומנגנוני בקרת האיכות אינם חסינים מטעויות. אולי כולנו צריכים להיערך לעתיד בו הארגון משקיע יותר משאבים בשמירה על הזמינות הארגונית? לא רק בפקטור ההגנה, אלא גם בפועל בפעולות חזרה לאחור אקטיביות, וגם לא מעט בייצור מנגנון שמבטיח שגם תהליך ניהול הסיכונים יעדכן את עצמו בהתאם לתצורות העבודה בעידן הנוכחי, שמשתנות בקצב שרק הולך וגובר.

מדוע ארגונים נוטים לא להשתמש במנגנוני ההתאוששות שלהם ולהעדיף תיקונים ידניים?

מערכות התשתית הארגוניות התפתחו בצורה כזו, שגם מוצרים שבעבר סומנו תחת קטגוריות מוצרי גיבוי (Data Protection) מסומנים היום כמוצרי אבטחה (Data Resilience\Security). הם לוקחים חלק משמעותי לא רק בחזרה לאחור כתוצאה מטעויות אנוש או כחלק מהרגולציות לשמירת מידע קריטי בארגון, אלא גם חלק פעיל בהגנה מפני תקיפות כופרה. בנוסף, מערכות הגיבוי כיום מתמקדות בצורה נרחבת ביכולות התאוששות מהירות לנפחי מידע גדולים ולא רק לחזרה נקודתית. יכולות אלו, הנקראות לרוב Mass Recovery, משנות את כללי המשחק בכל הקשור ליכולות הארגון להמשיך לתפקד במצבי השבתה שונים.

מקור: אתר מיקרוסופט

מבלי לנבור בפרטים הטכניים, ללקוחות שנפגעו מתקלת CrowdStrike היו שתי אפשרויות: לחכות ליצרן שיזהה את הבעיה, יתקן אותה ויבצע את הוראות התיקון שיופצו, או לחשוב כיצד חוזרים לאחור מבלי לאבד מידע.

בפרמטר הזמן, שלרוב במצבים כאלה נוטה להיות לא ידוע, מרבית החברות מתקשות להתחייב ל-Time to Fix, והאחריות מוטלת על הארגון עצמו שייצר מנגנוני חזרה לאחור מהירים יותר לאחר זיהוי הבעיה. היתרון המשמעותי בכך הוא שה-Stack הטכנולוגי ברוב הארגונים היום מאפשר יכולות חזרה לאחור מהירות, כמעט מיידיות, שמבטיחות את הזמינות הארגונית.

רצוי לציין כי במגוון מערכות האחסון הארגוניות כיום קיימים העתקים שאליהם ניתן לחזור באופן מהיר יחסית. תהליכים אלה אינם אוטומטיים לרוב ואינם כוללים יכולות התאוששות ובדיקה בסביבות סגורות. הפער בין להעלות את המידע ובין להפוך אותו לשירות פעיל הוא גדול עד כדי מצב שבו הארגונים מעדיפים להמתין ולטפל בצורה ידנית.

אילו יכולות קיימות היום לטובת התאוששות מאסון במוצרי גיבוי?

Instant Mass Recovery: היכולת להעלאה של מכונות ווירטואליות (לרוב) בארגון במאסות גדולות. בעבר מערכות גיבוי עקב מגבלות טכנולוגיות היו מעלות מספר קטן של מכונות במקביל, אך היום מערכות הגיבוי החדשות יודעות (חלקן באופן דיפולטי, וחלקן באופן שמצריך היערכות) להעלות מאות ואפילו אלפי מכונות וירטואליות מתוך סביבות הגיבוי תוך מספר דקות, ותוך יכולות בדיקה שלהן בסביבות סגורות לפני החזרתן לסביבות הייצור.

Hyperconverged Appliances Based: במהותם פתרונות חדשים מבוססי תשתיות HCI עובדים בטופולוגיה שונה, המכילה באופן מובנה כוח עיבוד וכמות ערוצי תקשורת גדולים משמעותית. הם כבר לא מהווים צוואר בקבוק בתהליכי שחזור מאסיביים של מידע, אלא הופכים להיות Enabler של שירותים של ממש. כמובן, שימוש ב-Hyperconverged Appliances מגדיל באופן משמעותי את יכולות השרידות של פתרון גיבוי ומקטין כמעט לאפס את האפשרות לתקלות במערכות הגיבוי בזמן תהליכי שחזור.

Continuous Data Protection – CDP: למעשה מדובר ביכולת לא חדשה בכלל שהפכה להיות פתאום אחת היכולות הרלוונטיות ביותר בשוק במוצרי הגנה על המידע. בשונה מתהליך גיבוי סטנדרטי שרץ אחת לפרק זמן מסוים ומכיל בתוכו גרסה שנכונה רק לנקודה אחת בזמן מתוך 24 שעות, קיימות למוצרי הגיבוי יכולות המאפשרות גיבוי של כלל השינויים לאורך זמן, מה שמבטיח שבמקרה שחל אירוע, הארגון יוכל לחזור מבחינת נכונות המידע לרגעים האחרונים לפני האירוע ובכך לא לאבד מידע כלל.

ככל שאיומים מסוג CS גדלים, כך יכולת זו הופכת להיות כלי משמעותי בהבטחת הזמינות הארגונית. לשיטה זו יש עלויות נוספות, שכן שמירת כלל השינויים מצריכה היערכות והגדלת שטחי האחסון, אך יכולת זו מופעלת בדרך כלל לטווחי זמן קצרים. כדאי להשמיש שירות זה, לכל הפחות לכלל השירותים הקריטיים בארגון ולהבטיח שלארגון תפחת, אם בכלל, התלות הישירה בין זמינות שירותיו לבין משך אספקת התיקון של יצרן חיצוני.

Recovery Assurances: כיצד אוכל לוודא שכשיקרה תרחיש שמצריך חזרה לאחור כזו, המערכת תהיה מוכנה לכך? התשובה לכך בעבר הייתה תרגולים של שחזורים תקופתיים, שבמקרה הטוב הראו שהמערכת עובדת, אך לא יכלו באמת להבטיח את העתיד בצורה זו. המערכות המודרניות מאפשרות ללקוחות לבצע אוטומציה של תהליכי שחזור מדגמיים אשר מוודאים שמערכותיהם יעלו ביום הדין.

ייעוץ והכוונה: נושא זה הוכח כבר בעבר כקריטי, בהכרח תהליכי יעוץ בלתי תלויים. מאחר שכל מוצר עובד אחרת ומכיל יתרונות וחסרונות שונים, היכולת להתאים את יתרונות המוצר ליכולות הארגון אינה פחותה מבחירת המוצר עצמו. לדוגמה, מוכנות תשתית התקשורת או הבטחת שחזורים תקינים. ייעוץ חיצוני יכול להבטיח ולוודא את מוכנותה של תכנית ההתאוששות הארגונית והתאמתה למצב הארגון.

האירוע האחרון של CrowdStrike מדגיש יותר מתמיד את האיום המתמיד של בעיות שנגרמות על ידי עדכוני תוכנה ואת הצורך באסטרטגיות הגנת נתונים מתקדמות. באמצעות ניצול כלים מודרניים להגנת נתונים, ניתן לשפר את יכולות ה-CDP, להשיג אפס RPO ו-RTO כמעט אפסי, ולהתמודד ביעילות עם האתגרים שמציבים עדכונים תכופים בסביבות ייצוריות. כך, גם ארגונים יכולים להבטיח המשכיות עסקית וביטחון אמיתי בעמידות בפני איומי סייבר מתפתחים.

Geektime Insider