קורה: מפתח מחק בטעות את בסיס הנתונים של הסטארטאפ שלו

מפתח ב-GitLab, פלטפורמה פופולארית למפתחים, מחק בטעות קרוב ל-300GB של נתונים כדי לטפל בבעיית האטה באתר. אמ;לק: הסוף טוב


GitLab, אלטרנטיבה פופולארית למדי ל-GitHub, מספקת סביבת עבודה וירטואלית עבור מפתחים שבה הם יכולים לעבוד על הקוד שלהם יחד. בנוסף, לצד היותה קהילה חינמית, GitLab גם מאפשרת ללקוחות ארגוניים בתשלום להתקין ולנהל את הפלטפורמה על השרת שלהם. אלא שביום שלישי האחרון הסטארטאפ האוקראיני חווה אירוע חמור למדי באחד מבסיסי הנתונים שלו, מה שהוביל לאובדן 6 שעות של נתונים (משתמשים, תגובות, merge requests ו-snippets).

טעות אנוש

הכל התחיל כאשר מנהל מערכת ב-GitLab ניסה לתקן בעיה שהובילה להאטה באתר באמצעות איפוס של בסיס נתוני הגיבוי והפעלה מחדש של תהליך ההעתקה של אלו. העניינים הסתבכו כאשר במקום למחוק את מסד הנתונים המשני, אותו עובד מחק בטעות את בסיס הנתונים הראשי (db1.cluster.gitlab.com במקום db2.cluster.gitlab.com). לא עברו יותר משתי שניות עד שאותו עובד הבחין בטעות שעשה וביטל את המחיקה אך כנראה שזה היה מאוחר מידי מאחר ומתוך 300GB נותרו רק 4.5GB. כתוצאה מכך, GitLab נאלצו לנקוט בפעולת חירום ולהוריד את האתר מהאוויר.

צמד המייסדים: Sid Sijbrandij ו-Dmitriy Zaporozhets

לכל אורך התקרית החברה דגלה בשקיפות מירבית ועדכנה את המשתמשים במתרחש בכל רגע נתון בחשבון הטוויטר, פוסט בבלוג ועמוד Google Doc ייעודי שהתעדכן בזמן אמת. יתרה מכך, הם אפילו שידרו את עצמם בשידור חי ביוטיוב במשך שעות בעודם מתקנים את הבעיה. אחרי 6 שעות שהאתר ירד מהאוויר הגיעו קצת בשורות טובות: הסתבר שמאגר הנתונים שהושפע מהתקרית לא כלל קוד של אף אחד, אלא רק הערות ודיווחים על תקלות למיניהן. יתרה מכך, כל אותם לקוחות ארגוניים משלמים שהתוכנה מותקנת על השרתים שלהם לא הושפעו בכלל, מה שבהחלט ממזער את ההשפעה הכספית של התקרית.

בסופו של דבר ההשפעה הכוללת של התקרית כוללת משהו כמו 6 שעות של דאטה שנמחקו, 5037 פרוייקטים, 5000 תגובות ו-707 משתמשים שנמחקו מהמערכת. זה אולי נשמע הרבה אבל מה שבטוח הוא שאף אחד מהמשתמשים לא צריך להתחיל לכתוב את הקוד שלו מאפס, וסה״כ רק אחוז מהמשתמשים צפויים להיות מושפעים באופן ישיר מהתקלה.

אתמול ב-8 בערב (שעון ישראל) הודיעה החברה על כך שהשירות חזר לעבוד במתכונת רגילה לכלל המשתמשים. אנחנו לא יודעים מה איתכם, אבל לדעתנו מדובר כאן באחד מניהולי המשברים המרשימים ביותר שנתקלנו בהם.

הילה חיימוביץ׳

כתיבה הייתה עבורי מאז ומתמיד הרבה מעבר לתחביב, אך את חיבתי העזה לגאדג׳טים וטכנולוגיה גיליתי יחסית באיחור. כנראה שהגיקית שבי הייתה חבויה זמן רב, ורק חיכתה לרגע הנכון לפרוץ. בכל מקרה - היא כאן, ובכל הכוח. (צילום: יורם רשף)

הגב

10 Comments on "קורה: מפתח מחק בטעות את בסיס הנתונים של הסטארטאפ שלו"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 
Sort by:   newest | oldest | most voted
אני
Guest

שקיפות זה יפה, אבל השמטת מהכתבה את הדברים הכי חשובים – 5 סוגי גיבויים שונים נכשלו להם – וזה לא ממש טוב.

אני
Guest

ובמזל גדול היה להם גיבוי של 6 שעות אחורה –
LVM snapshots are by default only taken once every 24 hours. Team-member-1 happened to run one manually about 6 hours prior to the outage because he was working in load balancing for the database.

רוני
Guest

תרגום פרטי התקלה לשפת DBA על ידי Brent Ozar, אך עדיין מתאים לכולם – מי שרוצה להעמיק בקריאה על התקלה:

SQL Server DBA’s Guide to the Gitlab Outage

Guy F
Guest

מזכיר פרק של סיליקון ואלי, שרצו להדגים את מהירות ההעלאה שלהם, במקום זה הדגימו את מהירות מחיקת המידע מהשרת :)

פיקסי
Guest
החברה מ: Reduxio למה להחזיר את הדאטה תוך דקות נראה לכם כאילו הפיצ׳ר של snapshots הוא שלכם בלבד? כל/רוב מוצרי/בקרי האחסון תומכים בפיצ׳ר של snapshot, ועדיין אם הארגון לא מנהל נכון את אסטרטגיית הגיבויים שלו הוא יכול לצאת קירח מכל הכיוונים, כמו שעופר ז׳ כתב בתגובתו – פיספסתם עוד חלק, בו סיימון ריגס, ה-CTO של 2ndQuadrant – החברה שפיתחה את מערכות הגיבוי והרפליקציה של PostgreSQL – כתב פוסט מפורט שמסביר למה PostgreSQL כשל ברפליקציה, וכן נתן טיפ שתמיד נכון – חברה צריכה מדי פעם לבצע שיחזורי נסיון של הגיבויים שלה, כדי לוודא שהם בכלל שלמים וניתנים לשיחזור: Dataloss at GitLab… Read more »
rebecca
Guest

ההפך רדוקסיו מייתרת את הצורך בסנאפשוטס. תקרא עלינו קצת: http://www.consist.co.il

ברוך
Guest

מגניב

ASD
Guest

מה הקטע של המגיבים מ-Reduxio? זה די פתאטי שאתם מנסים למכור ככה את המוצר שלכם ודווקא עושה את האפקט ההפוך.

ואם היה לכם לא נעים לקרוא את התגובה שלי אז אתם צריכים לנסות את:
רוגטליות! טבליות רוגע נהדרות וטבעיות שעושות רגוע במוח כשאתם קוראים תגובות מעצבנות! רוגליות מיוצרות במושב גישרון בנגב על ידי עובדים בדואים ישראלים ששירתו בצבא כג'ובניקים ומקבלים שכר הוגן!

רוגליות! להיות, או לא להיות!
http://www.rogliot.zibi

OCB
Guest

אחי הלינק שבור…אולי אתה יכול לשלוח לינק חדש?
אם הייית משתמש ב LINKY תוכנת קיצור הכתובות פורצת הדרך שכתבתי
זה לא היה קורה…
לינקי – הלינק שהולך לפניך…http://www.linky.cum

ערן
Guest

מה עם הבונוס שלו?

wpDiscuz

תגיות לכתבה: