איסוף דאטה לא מספיק כדי לספק מוצר טוב, צריך גם לדעת לנהל אותו

האתגרים הכרוכים בניהול דאטה רק הולכים וגוברים: איך בוחרים את הדאטה הרלוונטי ואיך מנהלים אותו, כיצד לא מבזבזים משאבים יקרים בעבודה ב-cloud ואיזה שינוי תפיסתי יצטרכו אנשי פיתוח לעבור?

מאת חיים רנד Mobileye, Machine Learning Algorithms Developer

ואוהד שטרית Mobileye, Director of AV Object Detection

אחד האתגרים המשמעותיים עמו מתמודדת תעשיית הרכבים האוטונומיים הוא אימון המערכות הלומדות על מגוון רחב של סיטואציות. כך לדוגמה, כאשר רכב אוטונומי נכנס לצומת הוא צריך להיות מסוגל להתמודד עם זיהוי התמרורים הרלוונטיים לו, לדעת לזהות את צבע הרמזור ולהבין את משמעותו, לשים לב להולך הרגל שמתכוון להיכנס למעבר החצייה, למשאית שעומדת בצד ופורקת סחורה ועוד. על רכבים אלו לזהות את כל האובייקטים, לשערך את הדינמיקה של כל אחד מהם, להבין את הסצנה ולבצע לוקאליזציה, על מנת לבצע את החלטת הנהיגה הטובה ביותר. בנוסף, מערכת כזו צריכה להיות מסוגלת להתמודד גם עם מקרי קצה שלא רואים כל יום – ריקשה עם עשרה נוסעים, בור או מכשול בדרך ובעלי חיים הנמצאים בנתיב הנסיעה. כל זאת תוך שמירה על בטיחות הנוסעים והבטחת נסיעה רצופה.

היכולת להגיב נכון לסיטואציות שונות, מתבססת לרוב על יכולת הכללה של מודלים מאומנים. על מנת לייצר מודלים כאלו, יש לאסוף כמויות דאטה אדירות, לעבד אותן, לאחסן אותן ולהתאמן עליהן. היכולת לנהל ולהתאמן על דאטה בהיקף גבוה (במיוחד כשמדובר בווידיאו) עדיין מאתגרת לא מעט חברות וארגונים גדולים.

מה הם שלושה מהאתגרים איתם מתמודדות חברות האוטומוטיב כיום, וחשוב מכך – כיצד אפשר לפתור אותם.

1. להגדיר מה זה דאטה “מעניין”

אחד האתגרים המשמעותיים בהתמודדות עם כמויות אדירות של דאטה הוא להגדיר מה הוא הדאטה המעניין למודל הספציפי העושה בו שימוש, כמובן באופן אוטומטי. כך לדוגמה במקרה של מודלים שמפתחים לרכב האוטונומי, המערכות צריכות להתאמן על סצנות שכיחות ונדירות במקביל. לכן חשוב לדעת להגדיר מה הדאטה המעניין יותר (שלרוב הוא פחות נפוץ), לאתר אותו מתוך מגוון רחב של מקורות ולזקק אותו, וזאת על מנת לחסוך זמן פיתוח ומשאבי חישוב, ואחסון של דאטה שלא מסייע.

פתרון אפשרי: כלים שונים מתחום ה-AI (בעיקר שיטות למידת מכונה מפוקחת ולא מפוקחת) מאפשרים עיבוד מהיר של דאטה מגוון בהיקפים גדולים, איתור סצנות מעניינות בצורה אוטומטית ומיקוד המודלים המתאמנים עליהם. כלים אלו מאפשרים לייצר חיפוש ממוקד על פי הצרכים (שיכולים להשתנות), ולהגדיר מה רלוונטי לצורך האימון.

2. להתמקד במה שרלוונטי

גם לאחר שהתבצע הסינון ונבחרו המקרים המעניינים ללמוד עליהם, כמויות הדאטה הנותרות עדיין אדירות. כפועל יוצא, האתגר הנוסף הוא ניהול נכון של הדאטה הזה: איך לדגום ממנו, איך לבצע עליו שאילתות מעניינות, איך להסיק מסקנות ומהי הדרך היעילה לאמן עליו את המודלים השונים. בנוסף, לפעמים תוך כדי אימון מגלים שצריכים לשנות את המיקוד. כך לדוגמה, כאשר מבינים שהמערכת מזהה את רוב הרכבים אבל לא “מסמנת” רכבים ורודים כרכבים, מכיוון שאלו פחות נפוצים.

פתרון אפשרי: הקיבולת האינסופית ב-cloud מצריכה תכנון נכון וניהול מדויק של הדאטה. העבודה עם דאטה ב-cloud בצורה מבוזרת דורשת ארכיטקטורת דאטה טובה כדי לבצע שאילתות ביעילות מצד אחד, והזרמה מהירה לפי דגימה מסוימת לצורכי אימון רשתות מהצד השני.

כך, לדוגמה, כאשר רוצים לאמן את המערכת להתמודד עם מפגשים עם רכבים לא סטנדרטים (כמו רכבים שנמצאים בשדה התעופה), מתכננים הזרמה של סוג מסוים של דאטה למערכת, כזה שרוצים לתת לו תשומת לב גדולה, תוך יצירת התמהיל הנכון כדי לא לפגוע ביכולת הכללת המודל. בנוסף, כאשר נדרש שינוי המיקוד של האימון, ניתן לשנות את אופן דגימת הדאטה כך שיתאים לצרכים החדשים. אם נחזור לדוגמה של מערכת שאינה מזהה רכבים ורודים, יש לדגום דאטה הכולל רכבים בצבע הספציפי.

3. לעבוד יעיל

ההיקף הגדול של הדאטה המאוחסן והמעובד ב-cloud לצד יכולות האחסון האינסופיות של הכלי הזה, מוליד אתגר גדול של יצירת סביבת פיתוח שהיא Cost Effective. עבודה עם המון דאטה שעליו יש לבצע חישובים רבים, עלולה להוביל למצב שבו ארגונים מוציאים כסף רב בגלל תכנון לא נכון ועבודה לא יעילה. לכן, יש צורך לבצע אופטימיזציה על תהליכי העיבוד, למקד את תהליכי הוולידציה ולבצע שימוש נכון ויעיל במוצרי ה-cloud השונים.

הפתרון: כדי להימנע בהוצאת כספים מיותרת יש צורך במחקר מקדים ובחינה עמוקה של כלים זמינים וטכנולוגיות מתקדמות, היכולים להוזיל עלויות באופן משמעותי. למשל, לשכור מכונות אימון על פי זמינות. פתרון זה אומנם דורש פיתוח נוסף מצד הארגון, שיאפשר לו להתמודד עם אירוע של הפסקת אימון באמצע והמשכתו במכונה אחרת, תוך שחזור מלא של הסביבה, אבל מוזיל את תהליך האימון.

בנוסף, יש להגדיר מתודולוגיות פיתוח המתבססת, בין השאר, על עקרונות של אינטגרציה רציפה עם בדיקות ולידציה על דאטה קטן; יכולת התאוששות מהירה וחזרה לאימון במקרה של תקלה/כישלון; תהליך debugging יעיל ומהיר שמזהה באגים ופותר אותם במהירות; ושיטות מתקדמות לניטור תהליך הלמידה.

מה הלאה? על מנת להתמודד עם האתגרים הטכנולוגיים חברות רבות יצטרכו לייצר מוקדי ידע בפיתוח ב-cloud ומפתחים רבים יצטרכו להתרגל לפיתוח בסביבה שונה, שבה יש חשיבות רבה לאופטימיזציה והקטנת הסיכוי לטעויות, שעליהן משלמים לא מעט כסף.

הכתבה בחסות מובילאיי

מובילאיי, חברה בינלאומית המובילה בפיתוח ראיה ממוחשבת, למידת מכונה, וניתוח מידע, הינה מובילה עולמית בתחום התחבורה האוטונומית - החל בפיתוח טכנולוגיות נהיגה אוטונומיות לטובת הרכב האוטונומי ובעתיד הקרוב גם הפעלת שירותי תחבורה אוטונומיים. דרך פיתוח טכנולוגיות מיפוי המשמשות ליצירת מפות HD של העולם עבור הרכב האוטונומי ועבור ניהול ערים חכמות. ועד לפיתוח מערכות סיוע לנהג, שמוטמעות בלמעלה מ- 65 מיליון כלי רכב בכל העולם ומסייעות במניעת תאונות דרכים כבר היום.
מהנדסות ומהנדסים בוגרי מקצועות מדעי המחשב, מדעי חשמל וגם מתמטיקה ופיזיקה שאוהבים אתגר ומחפשים לקחת חלק במשהו שהוא גדול מהחיים, לעבוד בקצב גבוה וליישם את פתרונות המחר במציאות של היום, המשרות שלנו מחכות לכן ולכם כאן.

Avatar

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

2 תגובות על "איסוף דאטה לא מספיק כדי לספק מוצר טוב, צריך גם לדעת לנהל אותו"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
BK BK
Guest

אוהד תעשה לי raise!

סונדאר פיצ\'אי
Guest

וואלה לא ממש הבנתי.
אז מה אנחנו צריכים לעשות?

wpDiscuz

תגיות לכתבה: