דלג לתוכן הראשי

תקלת תשתית ב-02/09/2024

תקלת תקשורת וגישות (GitHub & TGI Cloud)

תיאור התקלה

במהלך הלילה, התרחשה תקלה במערכת ה-GitHub Actions Self-Hosted Runners של הארגון, שהביאה לניתוקים חלקיים במנגנון החיבור בין השרתים ל-GitHub. התקלה נבעה מעדכון שגוי של הרשאות ותצורות בתיקיות הקשורות ל-runners, בעקבותיו הושפעו מספר Jobs שבוצעו ונכשלו.

למען הסר ספק: user - משתמש רנדומלי שאחראי על התפעול

מהלך התקלה

  1. שינוי הרשאות לא מכוון: הרשאות בתיקיות הרצות של GitHub Actions Runner שונו מ-user למשתמשים אחרים. שינוי זה גרם לכך שה-runners לא הצליחו לגשת לקבצים קריטיים, דבר שגרם לכישלון הרצה של מספר workflows, כולל פריסות ופעולות תחזוקה.
  2. תוצאה ראשונית: ה-runners הצליחו להתחבר ל-GitHub אך כשלו בביצוע Jobs עקב חוסר הרשאות גישה לקבצים ולתיקיות נדרשים.

זיהוי ותיקון התקלה

  1. זיהוי הבעיה: על ידי ניתוח הודעות השגיאה והתיעוד בלוגים, התברר כי הבעיה נובעת מהרשאות לא נכונות על התיקיות הרצות והקבצים שבשימוש על ידי GitHub Actions Runner.
  2. תיקון הבעיה:
    • בוצעה החזרת ההרשאות לבעלות user עבור התיקיות /home/github/_work/ ו- /home/github/.
    • הקפדה על הגדרות מתאימות של הרשאות (755) עבור התיקיות כך שרק user יוכל לכתוב, ושאר המשתמשים יוכלו לקרוא ולהריץ את ה-scripts הנדרשים.
  3. בדיקות נוספות: בוצעו בדיקות חוזרות לאחר התיקון לוודא שה-Runners מסוגלים לגשת לכל התיקיות ולהריץ את ה-Jobs בהצלחה.

מצב נוכחי

  • רצים תקינים: כל GitHub Self-Hosted Runners חזרו לפעילות תקינה ומתחברים בהצלחה ל-GitHub.
  • הצוות מבצע מעקב: נמשכות בדיקות נוספות ומעקב אחרי המערכת לוודא שהתקלה לא תחזור ושהמערכת מתפקדת בצורה תקינה.
  • Jobs במצב תקין: כל ה-Jobs מתבצעים כעת כראוי ללא שגיאות.

סיכום

התקלה נגרמה בעקבות שינוי שגוי בהרשאות הקבצים על גבי השרתים המארחים את ה-GitHub Self-Hosted Runners. התקלה זוהתה ותוקנה על ידי החזרת ההרשאות לבעלות user וביצוע שינויים נדרשים בתצורות. המערכת חזרה לפעולה תקינה והמערכת נמצאת במעקב כדי למנוע תקלות דומות בעתיד.