הדור החדש של מקצועות הדאטה

מקצועות המידע והדרישות ממקצועני המידע משתנים ללא היכר בשנים האחרונות. תמונת מצב מעודכנת

jobs startup PD

מאת: שי אנגלברג, Valinor ,CTO.

רבות נכתב ונאמר על המהפך התפיסתי והטכנולוגי האדיר שעובר תחום המידע (Data) בשנים האחרונות. יש שיכנו את זה טרנד ה-Big Data וה-NoSQL. אני רוצה להתייחס להשפעות הנגזרות של השינויים הללו על מקצועות מומחי המידע, אשר עוברים טרנספורמציה לסט חדש של תפקידים, כגון Data Engineer, Data Scientist ועוד. אף אחד לא יכול להתעלם מהעובדה שהתחום הזה, שעד לפני כמה שנים היה אחד המסורתיים ביותר בעולם התוכנה והשתמש בכלים שהבסיס שלהם הומצא אי שם בשנות ה-70 (בסיסי נתונים רלציוניים – תורה שמקורה ב-1970), משתנה ללא היכר.

יש למהפך הזה גורמים רבים, שבהם לא נדון במסגרת זו. אך נציין כי שילובם של הגורמים הללו עם עלייתו המטאורית של מחשוב הענן, גורמים לכך שמקצועות המידע והדרישות ממקצועני המידע משתנים ללא היכר.

הדרישות המקצועיות

בצד התשתיות, תפקידי DBA תשתיתי קלאסיים מחייבים להשקיע חלק ניכר מיום העבודה בתשתיות: החל ממשימות פשוטות (ובלתי נגמרות) כגון מיקום קבצים וגודלם, דרך נושאים מתקדמים כמו ניהול האחסון וניהול משאבי זיכרון והמעבד, וכלה בנושאים יותר קריטיים ומורכבים כמו גיבויים, שחזורים ופתרונות שרידות והתאוששות מאסון.

בעידן שירותי ה-DB המנוהלים בענן (דהיינו, שירותי PaaS – Platform as a Service, ולא מכונות וירטואליות), משימות אלו נעלמו כמעט כליל: הניהול הפיזי של השירות מבוצע ע”י הספקים, הלקוח אינו רוכש משאבי מעבד וזיכרון אלא יחידות מדידה וירטואליות לביצועים, פתרונות ה׳זמינות׳ מובנים בתוך השירות ואנו מקבלים התחייבות ל-SLA מסוים, גיבויים מבוצעים מאחורי הקלעים ולנו נשארה רק היכולת להגדיר לאיזו נקודה בזמן אנחנו רוצים לחזור.

בצד האפליקטיבי התפקידים הקלאסיים של DBA אפליקטיביים כוללים תכנון של מבנה בסיס הנתונים, הגדרת מפתחות וקשרים בין טבלאות, כתיבת קוד SQL מורכב לשליפת הנתונים המתאימים ויצירת אובייקטים כמו VIEWS.

לעומת זאת, בעידן של בסיסי נתונים ללא מבנה מוגדר ושימוש במספר רב של שפות תכנות, סט המשימות והיכולות הנדרשות לצורך טיפול ושליפה של נתונים שונות מאוד. הן כוללות בעיקר כתיבת קוד תוכנה והרבה פחות תכנון מבנה והבנת קשרים.

השינוי הזה מורגש גם בקצה שרשרת המידע, שבו יושבים אנשי הבינה העסקית. אם בעבר נדרש איש בינה עסקית לשתי יכולות עיקריות – כתיבת דו”חות ובניית תהליכי טעינות, הרי שכיום הוא נדרש להכרה מעמיקה עם המידע עצמו, לצורך בניית מודלים סטטיסטיים (Machine learning) שיאפשרו לקבל החלטות עסקיות.

כמו כן, הוא נדרש להכיר את מגוון הטכנולוגיות והתשתיות (שצצות כמו פטריות) על מנת לסייע בקבלת החלטה לגבי התשתית שתשמש את הארגון. זאת מכיוון שלכלי התחקור והתצוגה יש כיום משקל רב הרבה יותר בבחירת הטכנולוגיה מאשר מקור המידע שממנו נשלפים הנתונים (למרבית הכלים יש יכולות להתחבר לכמות עצומה של מקורות מידע).

Startup Stock Photos

האחריות הארגונית

תחום טכנולוגיות המידע המודרני השתנה, בין אם בארגונים גדולים ובין אם בחברות סטארטאפ קטנות.
הטכנולוגיות הקיימות בשוק מגוונות וממוקדות מאוד, מבוססות קוד פתוח – לכל צורך יש טכנולוגיה שעונה לו וממוקדת בו. כך נמצא כי באותו ארגון נעשה שימוש במספר טכנולוגיות שונות ולעיתים אף באותו המוצר.

מכיוון שקצב הדרישות הולך וגדל וקצב הפיתוח של הטכנולוגיות צומח באותה מהירות, אנו רואים ביזור של תחומי האחריות והידע המקצועי על תשתיות המידע בין הצוותים שמפתחים את החלקים השונים במוצר.
זאת, בניגוד לעבר שבו צוותי תשתיות מידע רוכזו יחד, בדרך כלל תחת גוף ה-IT, התמקצעו בטכנולוגיה ספציפית וסיפקו שירות לכלל החברה או הארגון. כיום אנו רואים שהאחריות נכנסה לתוך צוותי הפיתוח.

טכנולוגיות

היום יש טכנולוגיות שמאפשרות לנו לפתח מהר יותר, לשמור יותר מידע, לקבל תשובות לשאלות מהר יותר ולחסוך בעלויות. בסיסי נתונים המבוססים על מסמכים (Document DB) תופסים נפח ניכר מהיקף הפיתוחים החדשים ומחליפים בהרבה מקומות את בסיס הנתונים הרלציוני. מכיוון שהם מאפשרים לפתח בלי סכמה מוגדרת מראש, הם מתוכננים לעבוד עם JSON, שהוא הסטנדרט כיום, והם בבסיסם מבוזרים, דבר שמאפשר לבצע Scale-out במקרה הצורך ולהוסיף שרתים ככל שיידרש.

טכנולוגיות Big-Data מחליפות בהרבה ארגונים את מחסן הנתונים הקלאסי. בהיותן מבוססות בעיקר על מערכת הקבצים המבוזרת של Hadoop, HDFS, הן מאפשרות לעבד כמויות עצומות של נתונים בצורה יעילה מאוד ומאפשרות לנו ללמוד מהנתונים האלה בצורה הרבה פחות מוגבלת.

פתרונות אינדוקס חדשים מאפשרים לנו לטעון לזיכרון ולחפש מידע בתוך נתונים בהיקף גדול ומסוגים רבים ומגוונים ולהציג בפנינו את התוצאות בתוך מילי-שניות. גם הטכנולוגיות הללו מבוזרות והן מאפשרות להוסיף שרתים ככל שיידרש לצורך שיפור ביצועים ותמיכה בכמויות גדולות יותר של נתונים.

על אף כל זאת, בסיס הנתונים הרלציוני הוא עדיין אחד הפתרונות החשובים ביותר בפיתוח מערכות תוכנה.
הוא מספק טרנזקציונאליות, אמינות ויכולות שאף אחד מהכלים האחרים לא מספק. הוא מאפשר לנו לעבוד עם עשרות אלפי פניות במקביל, לשמור על נכונות המידע ועל שרידותו.

התפקיד החדש

כבר כיום, אנשי המידע הוותיקים ואלו שרק מתחילים את דרכם נדרשים לאמץ לעצמם סט יכולות חדש.
הדרישות מאנשי המידע משתנות ובמקום להתמקצע בבסיס נתונים רלציוני או בטכנולוגיה ספציפית, הם יידרשו להכיר את היכולות, היתרונות והחסרונות של הטכנולוגיות הנוספות הקיימות בשוק ולדעת לבחור לכל סיטואציה ולכל צורך את הטכנולוגיה המתאימה.

בסופו של תהליך, צוותי התשתיות יוקמו מחדש על מנת לתת שירות לכלל הארגון בכלל תשתיות המידע.
צוותי הפיתוח לא יוכלו להמשיך ולהתמקצע גם בפיתוח התוכנה וגם בפיתוח תשתיות המידע. אנשי המידע יצטרכו ללמוד ולהתמקצע בכתיבת קוד ולהכיר את מגוון הכלים והשפות הנדרשים ליישום ושימוש בטכנולוגיות הללו הם יצטרכו להבין שבעולם המודרני המידע הוא זה שמאפשר לעסק לצמוח ולכן הם צריכים לספק פתרונות לאנשי המוצר ולא להציב מגבלות.

סיכום

העולם משתנה והופך ליותר ויותר תלוי במידע. הנהלות של חברות ובעלי השפעה מבינים יותר ויותר שהמידע יכול לסייע להם לשפר את הביצועים שלהם ולהרוויח יותר כסף. דרישות חדשות, פיתוחים חדשים וטכנולוגיות חדשות יוצרים מגוון רחב של אפשרויות שמהן יש לבחור בחוכמה את תשתית המידע המתאימה ביותר.

תפקידם החדש של אנשי המידע יהיה ללמוד ולהכיר את מגוון טכנולוגיות, להתאים את הפתרון המתאים לדרישה, לדעת ליישם את הפתרונות הללו ולספק גמישות שתוכל לעמוד בשינויי הדרישות המתמידים.

הכתבה בחסות Microsoft SQL Server 2016

התמיכה ב- 2005 SQL Server הסתיימה והעסק שלכם עלול להיות בסכנה. בכדי להימנע מסיכונים עתידיים במצב של ניהול ה- Database בארגון ללא תמיכה, וכדי שתוכלו להנות ממערכת שתספק מענה כולל לארגון, מהרו לשדרג לגרסה החדשה. רוצים לדעת עוד על השדרוג למערכת SQL Server 2016? לחצו כאן.

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

4 Comments on "הדור החדש של מקצועות הדאטה"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 
Sort by:   newest | oldest | most voted
Jako
Guest

“הדור החדש” מורכב בעיקר מסטרטאפיסטים עם לקוח וחצי, ו-100MB נתונים, שמשוכנעים שיש להם BIG DATA, ושהם צריכים להתבסס על הבאזוורד האחרון שמסתובב ברשת.
רוב האנשים שאחראים על בניית בסיסי נתונים לא יודעים לתאר את המבנה הפיזי של הנתונים בדיסק, ויתקשו להשוות בין זמני ביצוע של דיסק לזכרון, או לבנות סכמה יעילה.
הם גם לא יודעים איך הבאזוורד שלהם עובד, אבל הם בכל זאת יודעים לקבוע בוודאות ש-DB רלציוני הוא “לא סקליבילי”.

המשתמשים מקבלים בסוף נתונים לא עקביים, וזמן תגובה איטי.

עצוב, אבל זה הטרנד בשנים האחרונות.

שלמה שוורץ
Guest

זה נכון חלקית. מבחינת scale באמת הרבה הסטארטאפים וחברות בכלל לא מתקרבות לגבולות היכולת של RDBMS וכל הNoSQL הוא יותר בקטע הטרנדי. אבל נפח וסקלביליות הוא לא הפרמטר היחיד. יש עניין גדול בנוחות העבודה, עבודה ללא סכימה, אפשרות של שמירה ושליפה של מבנים והיררכיות של אובייקטים בלי להמיר אותם לטבלאות, טיפוסי SQL וכו’. קוד שיקח לך יומיים לכתוב עם DB רלציוני (כולל ORM וכל מה שבאמצע) אתה עושה ב10 דקות בMongoDB או כל noSQL אחר.
יש הרבה אופטימזציות והתייעלויות שאפשר לעשות בשאילתות, אינדוקס, joins, חלוקה אופטימלית בין דברים שנשמרים בRDBMS לדברים שנשמרים בnoSQL לפני שרצים להתעסק עם דיסקים ושמירה בזיכרון.

Jako
Guest

אתה כותב ב-10 דקות, ואחר כך מבזבז ימים ושבועות בנסיונות לאופטימיזציה, וכתיבת מנגנונים שישמרו על עקביות הנתונים.

בסופו של דבר, האפליקציה נדרשת להתייחסות לפיסות מידע ספציפיות ב-DATA, וכאן ה-schemaless הופך למעמסה, במקום יתרון.

הנה מאמר שממצה את הענין בצורה יפה:
Stop Claiming that you’re Using a Schemaless Database

שלמה שוורץ
Guest

אני יכול לשלוח לך אינספור מאמרים על יתרונות הschemaless אבל אתה ילד גדול ויכול למצוא בעצמך…

כמי שמתכנת 16 שנה אני יכול להגיד שזה כמו הוויכוח האינסופי של שפות דינמיות מול strongly types: בסוף לכל אחד יש את היתרונות והחסרונות שלו. אני אישית ממשיך לעבוד עם שניהם כל פעם לפי הצורך.

wpDiscuz

תגיות לכתבה: