דלג לתוכן הראשי

תקלת תשתית רוחבית ב-01/09/2024

תיאור התקלה:

ביום שבת, 31/09/2024, התקבלה החלטה לבצע עדכון משמעותי בתשתית האבטחה של השרתים בעקבות זיהוי מספר בעיות אבטחה קריטיות. בעדכון זה, נעשו שינויים בהגדרות חומת האש (iptables) של השרתים במטרה לסגור את כל הפורטים למעט פורטים חיוניים כמו HTTP (80), HTTPS (443), פורטים של FiveM ו-SSH (22).

מהלך התקלה:

למרות שהמטרה הייתה לשפר את האבטחה, ביצוע העדכון כלל ריקון מלא של כללי חומת האש הקיימים (iptables -F), מה שגרם לנעילת השרתים ולחסימת כל תעבורת הרשת, כולל גישת SSH חיונית לניהול השרתים. כתוצאה מכך, לא היה ניתן לגשת לשרתים מרחוק, מה שגרם להשבתת כל השירותים המבוססים עליהם.

זיהוי ותיקון התקלה:

בשל חומרת המצב, גישת חירום לשרתים נעשתה באמצעות iDRAC (Integrated Dell Remote Access Controller) כדי לשחזר את הגדרות חומת האש ולאפשר מחדש גישת SSH והחזרת תעבורת הרשת לשירותים הקריטיים.

לאחר הגישה לשרתים, בוצעה שחזור מהיר של כללי חומת האש, שכולל את הפקודות הבאות:

sudo iptables -P INPUT ACCEPT
sudo iptables -P FORWARD ACCEPT
sudo iptables -P OUTPUT ACCEPT
sudo iptables -t nat -F
sudo iptables -t mangle -F
sudo iptables -F
sudo iptables -X

פקודות אלו איפשרו את פתיחת כל התעבורה באופן זמני כדי להשיב את השרתים לפעולה.

מצב נוכחי:

  • כל השירותים חזרו לפעול במלואם.
  • בוצע ניטור לאחר התקלה כדי לוודא שאין בעיות נוספות.

לקחים מהתקלה:

  1. זהירות בשינויים קריטיים: כל שינוי בהגדרות קריטיות כמו חומת אש יש לבצע בזהירות יתרה, ולוודא שיש מנגנוני התאוששות זמינים במקרה של כשל.

  2. בדיקות מקדימות: לפני יישום שינויים רחבים במערכות ייצור, מומלץ לבצע סימולציות או בדיקות בסביבה מבודדת כדי לוודא שהשינויים לא יגרמו לתקלות בלתי צפויות.

  3. תיעוד ותהליך מסודר: יש לוודא שכל שינוי שמבוצע מתועד ומאושר בתהליך מסודר על ידי מספר בעלי תפקידים כדי להימנע ממצבים בהם נגרמת השבתה מלאה של המערכת.

  4. תכנית התאוששות: חשוב שתהיה תכנית ברורה למקרי חירום, כולל גישה דרך Out-of-Band Management כמו iDRAC, שמאפשרת גישה לשרתים גם במקרים של ניתוק רשת מלא.

סיכום

התקלה טופלה בהצלחה, אך היא מדגישה את החשיבות בתכנון קפדני ובדיקה מראש של שינויים מערכתיים, במיוחד כאשר מדובר בשינויים בעלי פוטנציאל להשפעה רחבה על זמינות השירותים. נעשה תחקור מעמיק, והוסקו לקחים להמשך פעילות המערכת בשגרה ובחירום.