ברקים בעננים של אמאזון

לפני כארבעה ימים, ביום רביעי בשעה 18:30 (שעון החוף המזרחי) נעלמו חלק מהשרתים המאורחים בשרותי ה-Elastic Cloud של אמאזון. החברה הודיעה בתגובה, כשעה מאוחר יותר, כי אחד מה-Datacenters שלה נפגע כתוצאה ממכת ברק.

lightning_strikeלפני כארבעה ימים, בשעה 18:30 (שעון החוף המזרחי) נעלמו חלק מהשרתים המאורחים בשרותי ה-Elastic Cloud של אמאזון. החברה הודיעה בתגובה, כשעה מאוחר יותר, כי אחד מה-Datacenters שלה נפגע כתוצאה ממכת ברק. הברק, לטענת החברה, פגע ישירות בספק הכוח המרכזי של ה-Datacenter, מה שגרם לנפילה מיידית של חלק מהשירותים שאורחו על-ידי אותו Datacenter. שירותי ה-EC2 של אמאזון מספקים שירותי אירוח בענן ממרכזים הפרוסים בארצות הברית ובאירופה, כאשר כל אחד מהאזור מחולק למספר מרכזים שונים שנועדו לספק שרידות מקסימלית למערכת.

שלוש שעות לאחר מכן, הודיעה החברה כי החשמל שוחזר לכל המערכות שנפגעו ועד השעה 1:20 בבוקר (שעון החוף המזרחי) כל הבעיות שנוצרו כתוצאה מהנפילה נפתרו לחלוטין. החברה הודיעה ללקוחותיה בזמן שהיא עבדה על הבעייה כי הם יכולים ליצור שרתים וירטואליים חדשים שיחליפו את השרתים שנפלו באופן זמני או לחכות שהשרתים המקוריים שנפלו יתקונו ויועלו לאוויר כאשר תתוקן בעיית החשמל.

זוהי לא הפעם הראשונה ששירותי ה-Cloud של אמאזון סובלים מנפילת מתח. באוקטובר 2007 ובפברואר 2008 סבלו שירותי הענן של החברה מנפילות משמעותיות וגדולות הרבה יותר. אבל אלו דוגמאות לנפילות, מה שלא משתוואה למקרה שזכור משנה שעבר שבו אחד המהנדסים של החברה מחק "בטעות" את כל שירותי התשתית של Flexiscale שהיו מאורחים בענן של החברה.

אחד הדברים שלוקחת חברה בחשבון כאשר היא בוחנת את האפשרות לארח את השירותים שלה בענן של אמאזון (או של כל חברה אחת לצורך העניין) הוא נושא השרידות ויכולת ההתמודדות של ספק השירותים עם אסונות מהסוגים הללו. בהתחשב בעובדה שאמאזון מגינה על שירותיה עם שרידות מבוססת מיקום ברחבי ארצות הברית ואירופה, היה לי קשה להאמין עד היום שלקוח של החברה יסבול מכשל נקודתי כלשהו. להפתעתי, חלק מהשירותים של לקוחות החברה היו מרוכזים באותו ה-Datacenter שנפל וכתוצאה מכך, אותם ספקי שירות איבדו גישה באופן זמני לכל השירותים אותם הם סיפקו ללקוחותיהם.

רוהיט שארמה כתב אתמול ב-GigaOM על הסוד להתמודדות עם בעיות תשתית. שארמה מחלק את ההתמודדות לשלושה שלבים אותם יש לתכנן מראש על-מנת להגיע למצב שבו התוכנה שלנו רצה כמו שצריך. שלושת השלבים הם: פיתוח (Develop), פריסה (Deploy) וגדילה (Scale).
הנקודה ששווה התייחסות מהמקרה באמאזון היא התכנון של שלבי הפריסה והגדילה של האפליקציה שלכם על-מנת שלא תושפעו ממקרים כגון המקרה האחרון שקרה בשירותי ה-Cloud של החברה. האם באמת אפשרי להימנע לחלוטין? האם שרידות מלאה היא אפשרית? כנראה שלא, אבל אנחנו צריכים ללמוד מטעויות העבר כדי להגביר סיכוי ההתמודדות שלנו כמה שיותר בכל הקשור ל"אסונות" שיגיעו בעתיד.

יניב פלדמן

צ'יף-גיק ועורך ראשי. יזם, סטטיסטיקאי חובב, טכנולוג בדם, בעל תואר ראשון במנהל עסקים ו-Microsoft MVP בתחום אבטחת מידע. התחביב האהוב עליו הוא מציאת פתרונות מסובכים לבעיות פשוטות במיוחד.

הגב

2 Comments on "ברקים בעננים של אמאזון"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 
Sort by:   newest | oldest | most voted
Gilad
Guest

הבלוג הזה קצת מיותר אם אתם הולכים לפרסם את כל הפוסטים גם ב The Marker לא ?

trackback
[…] ברקים בעננים של אמאזון Software as a Service – מדריך לשירותי תוכנה בענן – חלק א' Software as a Service – מדריך לשירותי תוכנה בענן – חלק ב' Software as a Service – מדריך לשירותי תוכנה בענן – חלק ג' מתויג כ: Cloud, Cloud computing, Denfese information Systems Agency, Department of Defense, DISA, DoD, Race, Rapid Access Computing Environement, הסוכנות למערכות מידע במשרד ההגנה, משרד ההגנה האמריקאי, ענן, ענן מחשוב blog comments powered by Disqus var disqus_url = 'http://www.newsgeek.co.il/dod-lanuches-race/ '; var disqus_container_id = 'disqus_thread'; var facebookXdReceiverPath = 'http://www.newsgeek.co.il/wp-content/plugins/disqus-comment-system/xd_receiver.htm'; var DsqLocal = { 'trackbacks': [ ], 'trackback_url': 'http://www.newsgeek.co.il/dod-lanuches-race/trackback/' }; […]
wpDiscuz

תגיות לכתבה: