מה צריך לקרות כדי שמדעני נתונים יתעסקו במדע נתונים ולא בניקוי הדאטה?

הצורך לתקן את אופן זרימת המידע לכולם, ולא רק לעולם בעיה או לארגון מסויים, קיים כבר שנים רבות בעולמות ה-Data Science. האם אנו קרובים לפתרונות דור חדש שיאפשרו להפיק את המקסימום ממהפכת הדאטה, לחסוך בזמן ולאפשר למדעני נתונים להתעסק במדע ובאלגוריתמיקה במקום בניקוי והכנת המידע?

מקור: Unsplash

מאת: ליאור הנדלסמן

כבר בשנת 2006 קבע המתמטיקאי הבריטי קלייב האמבי (Clive Humby) כי "דאטה זה הנפט החדש (Data is the new oil)", כרמז לכך שמדובר במשאב בעל הערך הגבוה ביותר בכלכלה המודרנית. הביטוי תפס וצוטט על ידי רבים בתעשיית מדע הנתונים (Data Science), כולל בכירים במייקרוסופט וב-IBM, וב-2017, למעלה מעשור מאוחר יותר, הצטרף גם מגזין 'האקונומיסט' הנחשב לחגיגה ופרסם כתבה שכותרתה "המשאב החשוב בעולם הוא כבר לא נפט, אלא דאטה".

כיום, כשאנו לקראת סיומה של 2021 ולאחר משבר בריאות עולמי שהוביל את כולנו לחיים מחוברים מתמיד, המגמה הולכת ונמשכת: יותר חברות וארגונים אוספים יותר דאטה מאי פעם, ומשתמשים בו למטרות רבות ומגוונות. בנוסף לכך, פריצות דרך טכנולוגיות בתחומים כגון פרסום מקוון, 'אינטרנט של הדברים', רשתות חברתיות ועוד – מייצרות אפשרוית חדשות לאיסוף ושימוש במידע. ולמרות ההתפתחויות מעוררות ההשתאות בפרק זמן של פחות משני עשורים, בעיה מרכזית נותרה מעסיקה מדעני נתונים רבים: אין מדע נתונים איכותי בלי דאטה איכותי.

צוואר הבקבוק: בניית פייפליין של דאטה, ניקויו וזיקוקו במינימום מאמץ עבור מדעני נתונים

דאטה הוא נכס שצריך לנהל את הזרימה שלו בארגון ולהשביח על מנת ליהנות מפירותיו. אם דאטה הוא אכן נפט, חובה לזקק אותו כדי להשתמש בתוצריו. כפי שאמרו מאז 2006: כשם שצריך לשנות נפט לגז, פלסטיק או כימיקלים, כדי ליצור ישות בעלת ערך המובילה לרווח, כך יש לפרק ולנתח נתונים כדי שיהיה להם ערך. דאטה הוא 'מלוכלך', משתנה כל הזמן ועצום, ובנתוני עתק (Big Data) הכמויות גדולות במיוחד.

אחת הבעיות המרכזיות כיום היא צוואר בקבוק של ניקוי מידע – לא כל הארגונים יכולים או מספיקים לסדר אותו כבר עם כניסת הדאטה לדאטהבייס שלהם. ייאמר מיד: סוג הדאטה משפיע על סוג הבעיות הנוצרות, כמובן. ובכל זאת, ליקטנו כמה דוגמאות נפוצות שודאי מוכרות היטב כמעט לכל מדען נתונים.

טעויות הקלדה או כתיבה בהכנסת מידע באופן ידני למערכות דאטה; באגים באופן הצגת המידע במערכות; פורמטים שונים של הכנסת מידע, כגון אופן שונה של כתיבת תאריכים, או קבצים הנסרקים כ-PDF לעומת טבלה, מה שעלול להשפיע על מהירות ואופן טעינת הנתונים; נתונים חסרים במאגר הנתונים, והאם וכיצד ניתן להשלימם באמצעות מידול; בעיות פרטיות (Privacy): קומבינציה בין מקור א' ומקור ב' של נתונים יחד עלולה לחשוף מידע פרטי שאסור לחשוף אותו, בין אם על משתמשים, בין אם על ספקים, או אפילו אם איננו מעוניינים שכולם בתוך הארגון יהיו נגישים לפרטי מידע אלו (לדוגמא: מידע של מחלקת כספים, להבדיל ממידע של מחלקת שיווק, להבדיל ממידע של מחלקת HR וכו'). בעיות כאלו יכולות להתעורר במיוחד כשהמידע במאגר כולל מידע רפואי, ביטוחי, בנקאי, משפטי, מידע הכולל מספרי תעודות זהות, כתובות מגורים, אימייל וטלפון, הוצאות בכרטיס אשראי, מידע הנכלל בהגדרות הפרטיות של ה-GDPR וה-CPRA, מידע הנוגע לקטינים, תצלומי וידיאו, ועוד. מידע שנמכר ומועבר מיד ליד כולל היום המון פרטים אינטימיים שניתן להשתמש בהם בשלל דרכים; איחוד מספר מאגרי נתונים כדי להוציא פלט הכולל את כל מה שידוע לנו (או, דוגמא אחרת: לסכום נתונים לנתון חשוב מבחינה עסקית). נדרש לשלוף, נניח, מ-20 טבלאות שונות, שכל אחת מהם יושבת בדאטהבייס נפרד, לעיתים במערכת/בסביבה שונה, ונדרש לכתוב קוד כדי לייצא ולחבר את כלל הנתונים לטבלה אחת אחידה; כשיש המון דאטה, לא נריץ בהכרח את האלגוריתם על כולו – ולעיתים קשה להבין מה לחלץ כדי שעליו נרוץ.

התוצאה היא שבהרבה ארגונים ובעבור מדעני נתונים רבים (במיוחד עבור כאלו בהם לא הומצא פתרון אד-הוקי לתעשייה מסויימת), נוצרת השחתה של זמן רב של הצוות על הכנת נתונים, והתאמת התצורה של הכנסת המידע למכונה. כפי שאנחנו חותכים את התפוזים לחצי בטרם הכנסתם למסחטה והכנת מיץ תפוזים, כך עלינו להכין את מבנה הנתונים כדי שיהיה אינפוט למודל. וגם היום, חרף התפתחויות טכנולוגיות רבות, מדעני נתונים רבים עדיין מבזבזים זמן רב ויקר בניקוי והכנת דאטה על מנת שניתן יהיה לנתח אותו.

סוגי פתרונות קיימים לניהול והזרמת מידע בכמויות גדולות בארגון

בעוד שכלים לניתוח מידע מתקדמים במהירות, כלים ופלטפורמות לניקוי, פירמוט ואינטגרציה של מידע ממקורות שונים, מערכות מידע שונות ומסוגים שונים, וכן ניהול דינמי של זרימת הדאטה בארגונים, משתרכים לדעתי הרחק מאחור. בארגונים רבים מתמודדים עם ניקוי המידע באופנים שונים: מפרוטוקולים מדוקדקים על אופן הכנסת ובדיקת המידע בצוותים שונים, שימוש בכלים טכנולוגיים ייעודיים לתעשייה ספציפית, ועד כתיבת קוד 'בתוך הבית' לפתירת בעיות קונקרטיות של הדאטה. אחד התהליכים הנפוצים בהקשרים אלו הוא תהליך במחשוב ששמו ETL – Extract, Transform Load: תהליך של העברת נתונים ממקור או מספר מקורות לתוך מערכת ייעודית שמראה ייצוג של הדאטה באופן או בהקשר אחר מאשר במקור/ותיו. תהליך זה כולל שלושה שלבים: Data Extraction – הוצאת נתונים מממערכות וקבצי מקור לבסיס נתונים. Data Transformation – שינוי הנתונים, כגון ניקוי הדאטה והעברתו לפורמט שיאפשר שאילת שאילתות וניתוח מידע. Data Load – הכנסת הדאטה לבסיס נתונים ייעודי. בסיום התהליך, המידע מוצג בפורמט שמתכנתים ומדעני נתונים יכולים לבנות אפליקציות ומשתמשי קצה נוספים בארגון יכולים לשלוף אנליטיקות או לבנות מודלים לקבלת החלטות מחכימות על בסיס הדאטה. 'קרוב משפחה' של תהליך זה הוא תהליך ה-ELT – Extract, Load and Transform, שבו היעד אליו זורם המידע הוא המקום בו המידע מבצע טרנספורמציות, ללא צורך בשלב של אחסון ביניים (Staging), שקיים ב-ETL.

המערכות הטכנולוגיות הקיימות  למספר קבוצות. הראשונה: מערכות ETL/ELT ותיקות לניהול זרימת המידע בארגון, כגון  Apache Spark – מערכת אופן סורס פופולארית לעיבוד ואנליטקות מידע ו-Informatica לניהול המידע בארגון, או Microsoft SSIS, עבור טבלאות SQL. השנייה: מערכות מוכוונת-ארגונים, כגון Palantir – המציעה שלוש פלטפורמות (Foundry, Gotham, Apollo) ובונה תוכנה המאפשרת לארגונים לבצע אינטגרציה של דאטה שרלוונטי עבור הארגון הספציפי שלהם. אתה תגדיר את הבעיה, ואנחנו נגדיר עבורך את הפתרון.

ואולם, למרות שהמערכות הקיימות מספקות מענה לסוגי ארגונים ומידע מסויימים, בעיניי עדיין קיים צורך בפתרונות 'דור חדש' מתקדמים אפילו יותר. הסיבות לכך מגוונות: חלק מהארגונים עדיין נדרשים לכתוב הרבה מאוד קוד, חלק מהמערכות טרם עודכנו לריצה בסוגי ענן שונים, היכולות לעשות טרנספורמציה לסוגי מידע שונים מוגבלת, קשה להכניס לוגיקות מורכבות, או לעבוד, כפי שנדרש יותר ויותר 'בזמן אמת' או במידע שמוזרם כל הזמן (Streaming Data). פתרונות המבוססים על מערכות שנבנות מלמטה למעלה שיאפשרו לארגונים לייצר Data Innovation משמעותי. יש צורך להתגבר על צוואר הבקבוק ולתקן את זרימת המידע בארגון לכולם, ולא רק לעולם או ארגון מסויים, באופן שיאפשר להרבה אנליסטים (AI/BI Analysts) לשלוף אותו כמעט ללא שימוש בקוד (No Code), וללא 'התמכרות' או התחייבות לאורך זמן לספק מוכוון-ארגון.

פתרונות הדור החדש: ויזואליזציה לניהול משאבים דינמי וללא קוד

ואכן, בשנים האחרונות מגיע גל חדש של מערכות לניהול דאטה, קבוצה שלישית, שמאפשרת יותר נגישות, נראות ושליטה על האופן בו זורם ומנוקה הדאטה לתוך הארגון ממספר מקורות שונים. מערכות דור חדש לניהול דאטה כגון Alooma, שנרכשה בשנת 2019 על ידי Google Cloud, מאפשרות לדאטה ממקורות שונים לזרום, לצוות מדעני הנתונים לכתוב קוד לניקוי והעשרת הדאטה, לזהות באופן אוטומטי חסרים, למפות את האינטגרציות ולבסוף להעביר את המידע למחסן נתונים (Data Warehouse) נבחר ברשת הלקוח (On-Premise), בענן (Cloud), או בשתיהן יחד (Hybrid). גם בפתרון זה, עדיין נדרש פעמים רבות מצוות מדעני הנתונים לכתוב קוד.

הצורך בפלטפורמות שיאפשר ניקוי מידע, ויזואליזציה והנגשה של זרימת המידע, עיצובה, שיפורה, ומתן יכולות לטפל בדאטה בזמן הכי קרוב לזמן כניסתו למערכת שמתאפשר, הולך וגדל כל הזמן. כדי לאפשר לארגונים לעבוד חלק יותר, לתת יכולות לאנשי בינה עסקית לספק תובנות ולאנשי מדע הנתונים להתעסק באלגוריתמיקה ובמודל, ולצורך ניתוח טוב מתמיד של המידע, קמות, גם בישראל, חברות המציעות פלטפורמות חדשניות, כגון Metrolink.ai של המפקדים הבכירים ביותר ביחידות המודיעין הישראליות שהושקה רשמית לאחרונה עם אחד מסבבי הסיד הגדולים של השנה (22 מיליון דולר) (גילוי נאות – בהובלתי כשותף ב-Grove Ventures, סיבוב אותו הובילה הקרן בשיתוף Eclipse Ventures).

הבשורה של גל הפתרונות החדשים נובע מתפיסה חדשה שמשפיעה על הטכנולוגיה במספר רבדים. העיקרים שבהם:

אוטומציזה טובה יותר של הכנת המידע להזרמה לפייפליין הדאטה של הארגון – על אף שלמדעני נתונים לעתים זה נשמע כמעט כמו מדע בדיוני, הכלים שיתקנו דאטה בעייתי באופן אוטומטי הולכים ומשתכללים, ובתוך מספר שנים חלק מבעיות הטרנספורמציה יפתרו באופן אוטומטי או כמעט אוטומטי. בין אם מדובר בתיקוני אותיות קטנות לגדולות, השלמת נתונים ממספר מקורות או אפילו כלים אוטומטים למידול והשלמת נתונים.
שבירת הפרדיגמה לפיה ביצועים גבוהים של דאטה פייפליין ניתנים למימוש רק בקוד – באמצעות פתרונות חדשניים, ניתן יהיה לממש טיפולים בדאטה בקצבים ומורכבויות גבוהות, וכן לממש טרנספורמציות מורכבות (העשרה, קורלציה וחישובים) וטיפול במידע זורם (Streaming Data) ללא קוד, וללא שיצירת דאטה פייפליין בארגון תהפוך לפרוייקט פיתוח תוכנה של ממש, על כל המשמעויות שלו (זמן, משאבים). מדובר כאן בפריצת דרך משמעותית, שתאפשר שליטה טובה יותר, מהירה יותר וויזואליזציה נוחה שתפשט את תהליך העבודה. מה שלוקח לצוות דאטה סיינס לעשות במספר חודשים יוכל להתקצר משמעותית – חצי עד רבע מהזמן, ומשאבי כח אדם אחרים או פחות בעי זיקה טכנולוגית בארגון יוכלו לגשת למידע מבלי להתעסק עם קוד או עם מערכות מסורבלות.
ניהול יעיל של משאבי החומרה הנתונים – כך שכמות המשאבים המוקצים לכל מקטע בפייפליין תשתנה בצורה דינאמית בהתאם לעומס הנתונים ומורכבות הטרנספורמציות שהדאטה עובר באותו מקטע. כאשר מדובר באוסף של פייפליינים עם עומס משתנה, הדבר מוביל לחסכון משמעותי בעלויות.

אנו מאמינים כי פלטפורמות חדשניות אלו יאפשרו בשנים הקרובות טיפול מיטיב במידע רב, בביצועים גבוהים, תוך ביצוע פעולות מתוחכמות גם ללא כתיבת קוד, ויכולות לאפשר מעבר לעולם של עיבוד מידע גולמי באופן מהיר ועצמאי וללא צורך בהליכי ניקוי ופיתוח ארכניים.

הכותב הוא שותף בקרן Grove Ventures

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

6 תגובות על "מה צריך לקרות כדי שמדעני נתונים יתעסקו במדע נתונים ולא בניקוי הדאטה?"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
דג ברשת
Guest
רבותי המכובדים, נסחפתם קצת עם תארים מרשימים "מדען נתונים" ו"ניקוי מידע". אבל בעצם ככה כיום וככה יהיה. כל תפקיד מוגדר בתאור מרשים, כולם נהדרים ועתירי יכולת, עם קשר רופף מאוד למה שקורה בפועל. לכן איכות התוצר יורדת, הדרישות לעשות כמה שפחות – רק מתגברות. שוכחים שבאיזה חור במינוס 8 ישוב איזה איש מערכות מידע, לא משנה אם מתכנת או יצרן פלטים או מעבד במחולל ? ובעצם אתם רוצים להתפנק ואפילו לא לכתוב תנאים במחולל או כלי המידע שלכם ? מה לעשות, בני אדם מקלידים דאטה. לפעמים טועים. וכך יהיה עוד הרבה שנים. גם מערכת המרת דיבור לטקסט או איחזור טקסט… Read more »
Ben
Guest

באמת הגזימו עם השאיפות שלהם. מה רע בכרטיסיות התכנות הישנות והטובות? כל הרעיונות המוזרים האלה של להשתפר ולהתקדם ולמצות את היכולות של המחשב. פשוט אנשים מוזרים ומוגזמים.

ASD
Guest

פעם באמת הכל היה יותר טוב. בעיקר מלחמות העולם והעוני.

שון
Guest

פתרונות Data Fabric הם המארג שעושה את כל הקסם שהכתבה מכוונת אליו. חיבור מידע ממקורות שונים ופורמטים שונים, ניקוי וטעינה והעברה ליעד. פתרונות כאלה קיימים כבר בשוק מזה מספר שנים, כגון K2view Data Fabric ואחרים.

פולי
Guest

פעם גם מתכנתים רצו שמשתמשים לא יפריעו להם עם המידע המציק שלהם.
היום בדיקת קלט זה שיעור ראשון בקורס מחשבים בסיסי

אחד שיודע
Guest

רק שזה לא.

wpDiscuz

תגיות לכתבה: