זה נשמע מוזר בהתחלה, אבל אולי הסינתזה הזו עשויה להציל את ה-AI

שתי השיטות העיקריות לסיווג מידע היום הן למידת מכונה ובינה מלאכותית מבוססת חוקים. אבל שתיהן סובלות מתקלות משמעותיות, ויכול להיות שהפתרון הוא דווקא לחבר שתי שיטות שמנוגדות אחת לשנייה

בינה מלאכותית מתקשה עם מידע מורכב מהעולם האמיתי (צילום: Dreamstime)

מאת ד"ר יהושע אנוקא, דירקטור דאטה סיינס ב-BigID

המידע שארגונים צוברים הולך וגדל על בסיס יומיומי, וכך גם המורכבות שלו. סוגי המידע הנשמרים כיום במסדי הנתונים מגוונים מאוד: מידע טבלאי, קבצי טקסט, אודיו, וידאו, קבצים רפואיים, קבצים סרוקים בכתב יד וכדומה. הכמות הגדולה של המידע, לצד העובדה שהוא לא מאורגן באופן סיסטמטי כמו במסדי נתונים טבלאיים, מקשה מאוד לנהל אותו ולדעת בכל רגע נתון אילו סוגי מידע נשמרים ובאילו מערכות מידע.

האתגרים האלו מעלים את השאלה: האם אנחנו יכולים להרגיש בטוחים לגבי המידע האישי שארגונים וממשלות מחזיקים עלינו, אם אפילו הם לא יודעים איפה הוא נמצא ומהו בדיוק המידע שהם שומרים עלינו?

השיטה שבה השתמשו עד לאחרונה לסיווג מידע הייתה בינה מלאכותית מבוססת חוקים, שהציגה הצלחות בתחומים רבים. לבינה מלאכותית מבוססת חוקים ישנם יתרונות רבים, בהם הפשטות היחסית שבה אפשר להציג, לתחקר ולתקשר את הלוגיקה שעומדת מאחורי ההחלטות שהמערכת מספקת. השיטה הזאת נוחה מאוד לשימוש כאשר החוקים או הכללים המשמשים לקטלוג המידע הם פשוטים וברורים.

אבל העניינים מתחילים להסתבך כאשר המערכות הללו צריכות לעבד מידע מורכב מהעולם האמיתי, וכאשר אין הפרדה ברורה בין סוגי המידע השונים שצריכים לעבור קטלוג. דוגמאות מוכרות למידע שבינה מלאכותית מבוססת חוקים מתקשה איתו היא סיווג של תמונות לפי מה שמופיע בתמונה, או לדעת אם המילה 'ישראל' שמופיעה בטקסט חופשי היא שם של מדינה או שם פרטי. הלכה למעשה, השיטה הזו קשה לבנייה והתאמה מהירה לסביבה משתנה.

אז אם השיטה המסורתית מבוססת החוקים לסיווג של מידע אינה טובה מספיק כדי לנהל את מערכי המידע המודרניים, אילו שיטות כן יכולות לעבוד?

האם הפתרון הוא שימוש בלמידת מכונה? לא בדיוק

למידת מכונה היא טכניקה ליצירה אוטומטית של מודל אנליטי (מערכת כללים או נוסחה מתמטית) המבוסס על מידע. באחד הסוגים המרכזיים של למידת מכונה, למידת מכונה מפוקחת (supervised), הלמידה מתבצעת על ידי תיוג של דוגמאות והרצה של מודל למידת מכונה על דוגמאות אלו. המודל לומד ומכמת את הקשר בין התכונות (פיצ'רים) של הדוגמאות לבין התיוג שלהן ומוצא תבניות בתוך הדאטה באופן אוטומטי עם התערבות אנושית מינימלית.

היכולת הזאת חזקה מאוד כי היא מצליחה ללמוד תבניות מורכבות מתוך הדאטה באופן שאינו ניתן למידול באופן אנושי, רק על סמך דוגמאות. כמו כן, היא יכולה ללמוד באופן אוטומטי גם על דאטה חדש וכך המודל יכול להתאים את עצמו לסביבה דינאמית. במילים אחרות, למידת מכונה מצליחה היכן שבינה מלאכותית מבוססת חוקים מאותגרת – במקרים המסובכים כשהדאטה מורכב, לא מסודר ומשתנה באופן תדיר.

למרות שהתחומים של למידת מכונה בכלל ולמידה עמוקה בפרט עברו כמה משברים מאז שהוצגו לראשונה באמצע המאה שעברה, הם הצליחו לעבור אותם בהצלחה ולהתקדם לרמת השימושיות הגבוהה שהם מציגים היום. זה נכון בייחוד לגבי למידה עמוקה שהתקדמה מאוד בשנים האחרונות. היתרון הגדול שלה הוא שהפיצ'רים נלמדים ומהונדסים באופן אוטומטי על ידי מודלים של רשתות נוירונים, בעוד שלמידת מכונה קלאסית דורשת עיבוד מקדים של הפיצ'רים על סמך כללים שנקבעו על ידי גורם אנושי. התהליך של יצירת פיצ'רים באופן אוטומטי מקנה יתרון ללמידה עמוקה בכך שהיא פחות תחומה (או חסומה) לתבניות חשיבה של בני אדם, כך שהיא יכולה לגלות תבניות מורכבות שאדם לא היה מעלה על דעתו.

על ידי שילוב של למידת מכונה עם מנועי החלטה מבוססי כללים ניתן למפות ולקטלג מידע במערכי הדאטה המודרניים בצורה שמבטאת את היתרונות של שתי השיטות.

כך בנינו פתרון למיפוי יעיל של מידע

למידת מכונה עוזרת למפות את המידע במסדי נתונים של טקסט חופשי באופן יעיל ומדויק. כיום קיימות כמה שיטות לסיווג מידע טבלאי או מידע בצורת טקסט חופשי, חלקן מבוססות חוקים שנכתבו על ידי אנליסטים ואחרות מבוססות למידת מכונה. השיטות האלה אמינות מאוד, אבל הבעיה היא שהן אינן ישימות על כמויות מידע עצומות באופן יעיל ומהיר.

חיפשנו דרך שתחסוך את הפעולות היקרות של הורדה וסריקה של קבצים על מנת להחליט איזה סוג מידע כל קובץ מכיל, והגענו לפתרון הבא: במקום לסרוק את כל הקבצים באופן מלא – תהליך שגוזל זמן יקר – החלטנו להשתמש במטא נתונים של הקבצים (שם הקובץ, גודל וכו') על מנת להעריך את הסיכויים למציאת מידע רגיש בסריקת קובץ מסוים, ואז לסרוק את הקובץ רק אם הסיכוי הזה גדול מספיק.

לדוגמה, רוב הסיכויים שקובץ שנקרא "חוזה עבודה.doc" מכיל שם פרטי, אימייל טלפון וכו'. אלה הם שלבי הפתרון:

  1. מורידים דגימה של קבצים מתוך מסד הנתונים וסורקים אותם סריקה מלאה.
  2.  על סמך המטא נתונים של הקבצים בדגימה שנסרקה, בונים מודל שיודע לחזות איזה מידע רגיש קיים בכל קובץ.
  3. מחילים את המודל המיוצר על שאר הקבצים וחוזים איזה סוג מידע כל קובץ מכיל.
  4. סורקים סריקה מלאה רק את הקבצים שהמודל חוזה שיש בהם סיכוי גדול למציאת מידע רגיש.

המודל שחוזה איזה מידע קיים בכל קובץ על סמך המטא נתונים של הקובץ מקצר את זמן הסריקה באופן דרמטי, כי הוא חוסך את ההורדה של הקובץ והסריקה שלו.

מודל למידת מכונה שחוזה איזה מידע רגיש נמצא בתוך הקופסה על סמך הצורה החיצונית שלה

איך אפשר להתגבר על המגבלות של למידת מכונה?

ההבטחות הגדולות של מודלים מבוססי רשתות נוירונים להחליף בצורה מהימנה תפקודים אנושיים, התבררו כמקדימות את זמנן. כבר שנים שאילון מאסק, אבי המכונית האוטונומית, מבטיח שמודלים מבוססי רשתות נוירונים יחליפו נהגי מכוניות. ג'פרי הינטון, הנחשב לסנדק של למידה עמוקה, מפציר בנו להפסיק להכשיר רדיולוגים כי ממש בקרוב המחשבים יעשו את האבחונים טוב ומהר יותר מהם. אבל בינתיים שתי התחזיות הללו לא התממשו וכלל לא בטוח שזה יקרה בשנים הקרובות.

אחת הבעיות הגדולות של למידת מכונה היא התלות המוחלטת בדאטה המוזן למודל. מודלים של למידת מכונה לומדים לזהות תבניות לפי עיקרון garbage in garbage out, שלפיו המודל אכן לומד תבניות של המידע שהוצג לו, אך פעמים רבות מציג ביצועים גרועים כשמדובר במידע שונה מהמידע שעליו הוא התאמן. בעיה זו מכונה בעיית ההכללה (Generalization error), וכך מגיעים למצבים שהמודלים לפעמים עושים טעויות מביכות – כמו המקרה שבו מכונית טסלה נהוגה על ידי נהג אוטונומי נכנסה ישירות במשאית ששכבה על הכביש לאחר שהתהפכה.

בעיה גדולה אחרת של מודלים של למידת מכונה היא שאין להם בינה במובן האנושי של המושג, כמו הבנה של סמלים וייצוג היררכי של המציאות. דוגמה לקושי של המודלים לרכוש הגיון בסיסי ניתן לראות במודל למידה עמוקה מתמטי שפותח לאחרונה וטעה בפתרון של התרגיל 1+1+1+1+1+1. גם בתחום של שפה טבעית, מודלי השפה הגדולים שצוברים תאוצה בשנים האחרונות ויכולים לייצר טקסט שנשמע הגיוני לאוזניים אנושיות, הם אחרי הכל סוג של "תוכי הסתברותי" שלא באמת מבין את הטקסט שהוא מייצר. טכנולוגיות אינטליגנציה מלאכותית בעיקר מעידות על האינטליגנציה של המהנדסים שבנו אותן, אבל אין להן בינה במובן האנושי של המושג.

אז איך אפשר להתגבר על המגבלות של למידת מכונה? לאחרונה צוברת תאוצה ההבנה שלמעשה שתי השיטות, בינה מלאכותית מבוססת חוקים ולמידת מכונה, יכולות להשלים אחת את השנייה וכך להתגבר על החסרונות של כל אחת מהן. ישנן כמה שיטות לשילוב של מודלים וחוקים:

  • להפעיל מודל למידת מכונה על הנתונים על מנת לגלות פיצ'ר שמשפיע חזק על התוצאה של המודל, ואז להשתמש בפיצ'ר הזה בחוק כלשהו שכתוב ידנית.
  • להשתמש בתוצאה של לוגיקה מבוססת חוקים כקלט למודל למידת מכונה.
  • שימוש במודל למידת מכונה על מנת לפתור תת-בעיה בתוך המודל השלם ולהשתמש בחוקים בצמתי ההחלטה האחרים.

השימוש המשולב בבינה מלאכותית מבוססת חוקים ובלמידת מכונה מאפשר ליצור מודלים שמצד אחד יוכלו להתמודד עם מצבים מציאותיים מורכבים, ומצד שני יאפשרו שליטה ותקשור טוב יותר של האופן בו המודל מקבל החלטות. לאחרונה חוקרים במעבדות של MIT ו-IBM הצליחו ליצור מודל בינה מלאכותית שמשלב את יכולת ההבנה של מודלים מבוססי חוקים ויכולת הלימוד של מודלים מבוססי רשתות נוירונים. תודות לשילוב בין שתי השיטות, המודל שהם יצרו דרש הרבה פחות דאטה לאימון ועדיין הצליח להגיע לרמות דיוק גבוהות מאוד ויכולת הכללה גבוהה יותר ממודל שמבוסס באופן בלעדי עם למידה עמוקה.

הרעיון ששתי שיטות מנוגדות אחת לשנייה משולבות כדי ליצור שיטה מאוחדת שחזקה יותר מסכום החלקים שלה, אינו זר להתפתחות המדע וקרה כבר אינספור פעמים בהיסטוריה בתהליך שנקרא סינתזה. ישנו סיכוי גבוה שבאמצעות שילוב של למידת מכונה עם בינה מלאכותית מבוססת חוקים נוכל ליצור בינה מלאכותית שהיא סינטטית במובן הטוב של המילה.

הכתבה בחסות BigID

חברת BigID מציעה פלטפורמה מבוססת בינה מלאכותית המאפשרת לארגונים לגלות, למפות ולנהל את כל המידע שהם מחזיקים. הפלטפורמה מאפשרת ללקוחותיה לנקוט עם המידע במגוון פעולות בתחומי אבטחת מידע, הגנת פרטיות, ותובנות מידע.
BigID מאפשרת ללקוחותיה לזהות מידע רגיש ואת מיקומו המדויק בשרתי החברה, על מנת להתגונן ולנהל בצורה בטוחה סיכונים, וכן לציית לרגולציה בתחום המידע והפרטיות כגון תקנות ה-GDPR באירופה וה-CCPA בקליפורניה.

עם קהל לקוחותיה של החברה נמנות עשרות חברות מהגדולות והמובילות בעולם, בכל התחומים.
החברה מעסיקה כ-500 עובדים ברחבי העולם, כאשר במרכז מחקר והפיתוח בישראל מועסקים קרוב ל-180 עובדים. מטה החברה ממוקם בניו יורק, ולחברה גם משרדים באוסטין, לונדון, בסינגפור, בברזיל, בהודו ובאוסטרליה, ונוכחות בשורת מדינות נוספות באירופה ובאסיה.

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

15 תגובות על "זה נשמע מוזר בהתחלה, אבל אולי הסינתזה הזו עשויה להציל את ה-AI"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
דביר
Guest

שיטה מאוד מעניינת וחשיבה מחוץ לקופסא
אבל האם היא יסימה עם קבצי לוגים על שמות מוזרים? איך אפשר לפתור את זה כאשר נגשים לקבצי טקסט גדולים מאוד?
גם מעבר על המטאדאטה של מילארדי קבצים יכול לקחת המון זמן, גם בסקייל, אולי אפשר כדאי לתייג את הדאטה בזמן השמירה שלו(בשנת 2030) על מנת שנוכל להוציא עליו מידע בצורה בצורה מהירה

יהושע אנוקא
Guest

תודה!
השיטה אכן ישימה גם על קבצי לוגים עם שמות מוזרים. אנחנו פשוט דוגמים את הסביבה של הקלוח וכך מייצרים מודל שמותאם לסביבה הספציפית שאותה סורקים.
לגבי הסקייל של מיליארדי קבצים – נקודה נכונה ואפשר לפתור אותה כי הסיבוכיות היא לינארית ואפשר להריץ על המודל על הרבה מכונות.

הרופא בע\'\'מ
Guest

AI זה הרכב ותמיד יהיה לזה שימוש להסיע אנשים וסחורה בנקודה א לנקודה ב. הנהג יהיה הבינה המלאכותית שבנקודה מסוימת יפעיל בעצמו את הנהג האוטומטי והרי לכם שילוב של השניים, אף אחד מהם לא הולך להעלם אלה להשתלב אחד בשני בדיוק כמו אבולוציה. זה בלתי נמנע בין עם זה אבולוציה של המכונה או בני אנוש זה התכנות שלנו שהמכונות ירשו ובסוף ישמידו אותנו. ראו ערך terminator 1 2 3.

איל
Guest

הסבר מצויין לתחום מורכב וקשה להנגשה. המסקנה מעניינת, נקווה שתיושם בעוד תחומים

יהושע אנוקא
Guest

תודה!

אליעד
Guest

הכל נכון, כתוב ומונגש יפה, ועל כך כל הכבוד.
אולם, אין בדברים משום החידוש.
כבר זמן רב משלבים את שתי היכולות, וממצים את הטוב מכל אחת מהן, לצורך פתרונות של בעיות ספציפיות, במקרים רבים (והחל כבר מ-2015 ויתכן שאף עוד קודם).
אגב, ישנן דרכים נוספות לשלב בין שתי היכולות, ושאינן הוזכרו. אחת מהן למשל, נוגעת לאפשרויות שיש ב-voting.

יהושע אנוקא
Guest

תודה!
זה ממש נכון שישנן עוד אפשרויות ופשוט מפאת חוסר מקום נתנו כאן יותר טעימה של האתגרים והפתרונות האפשריים.

דן עוז
Guest

הרעיון אינו חדש כלל. החידוש הוא באופן המימוש שלו – קידוד של הידע שבחוקים באופן דומה לקידוד הידע שנלמד מהדוגמאות. ללא קידוד זה, השילוב היה קשה מבחינה חישובית.

יהושע אנוקא
Guest

תודה דן. לא יכולתי לנסח את זה טוב יותר! ההרגשה שלי היא שבהחלט יש למה לצפות.

IT GUY
Guest

מאמר מעניין ורלוונטי.
הנושא מוכר אבל פחות לחסידי "עולם חדש ומופלא של AI" אלא יותר למי שמיישם ברצינות תהליכים כאלו וונפגשים במגבלות של pure AI כלומר בחלקים הפחות אינטיליגנטיים של AI.
ואז השאלה אם מתעלמים, מנסים לאלתר כנהוג בארץ, בשיטת ה"שכונה", או שבונים תהליכים שבאמת משלימים את החוקיות החסרה. חשוב שיהיו עוד מאמרים כאלו כדי לפתח מודעות לגישה… גם של מקבלי החלטות.
אגב כשאומרים חוקים זה משהו שמקבלי החלטות יכולים להבין וזה יתרון חשוב כי לכל פרוייקט יש מישהו שצריך להחליט אם להקצות לו תקציב.

תמיר
Guest

בסיסי מאוד, למה לעשות על מודל כזה כתבה

יהושע אנוקא
Guest

תודה על ההערה. בהחלט ננסה להשתפר לפעם הבאה בהיבט הזה. בכל מקרה בכתבה רצינו בעיקר להעלות את המודעות לחשיבות של השילוב בין למידת מכונה ל-AI מבוסס חוקים וגם לטכניקה החדשה (Neuro-symbolic AI) שצוברת תאוצה לאחרונה.

ניקו
Guest

מעניין מאוד.
השאלה שלי היא מדוע להציל את הבינה המלאכותית הרי היא לא הוכיחה (התפיסות הנוכחיות) בינה. אולי יש פה הכרה במגבלות הכוח של הכלי וצורך להגדיר מחדש את המונח ואת המודל העסקי של השימוש בה.

באופן אישי מאמין מאוד בצורך בפיתוח יכולת בעלת בינה לצרכים שונים שנועדו לשפר תפקודים ולהגבר את היכולות קיימות בעיקר בתחומי הקיימות והרפואה. הדרך עוד ארוכה.

יהושע אנוקא
Guest

תודה!
הדרך ארוכה ומעניינת!

wpDiscuz

תגיות לכתבה: