בדרך לפיצוח השפה הטבעית: טכניקות מסקרנות בלמידה ממוחשבת

הדרך לפיצוח מוחלט של השפה האנושית עוד ארוכה, אבל טכנולוגיות חדשות בתחום ה-deep learning ובראשן שיטת הטרנספורמרים, מהוות צעד משמעותי בכיוון

צילום/ תמונה: pexels

מאת קרני גילון, מובילת תחום NLP במעבדת החדשנות של סיטי בישראל

בשנים האחרונות אנו עדים לקפיצת מדרגה משמעותית בפיצוח של עיבוד שפה טבעית. תחומים כמו תרגום אוטומטי, שאלות ותשובות או עוזרות אישיות – עברו שינוי משמעותי עקב שימוש בטכניקות חדשות בלמידה ממוחשבת – טכנולוגיות שצפויות להמשיך ולקדם את תחום הבינה המלאכותית קדימה. בין הטכניקות המעניינות כיום בעולם ה-NLP ניתן למצוא את טכניקת הטרנספורמרים והלימוד הלא-מפוקח.

טרנספורמרים: המאסטר של השימוש המקבילי

אחד הגורמים המשפיעים על השיפור ביכולות ה-NLP הוא השימוש במעבדים גרפיים ויכולותיהם המשופרות. אך עיקר התרומה היא בהטמעת ארכיטקטורת רשתות עצביות חדשה הנקראת טרנספורמרים, המשמשת להתמודדות עם בעיות רבות ב-NLP.

לפני הופעת הטרנספורמרים נהגו לפתור בעיות הכוללות שתי סדרות מילים (sequence to sequence)  כגון תרגום, שאלות ותשובות ועוד בעזרת מודלים מסוג recurrent Neural Network – RNN, וריאציות כגון LSTM/GRU. מודלים אלו מתקדמים בצורה סדרתית על פני שכבות הרשת (לעיתים גם מההתחלה לסוף וגם מהסוף להתחלה), ואינם יכולים לחשב ערך של אלמנט לפני שהסתיים חישוב הקודם לו. לעומת זאת, הטרנספורמרים משנים את הגישה למקבילית.

ארכיטקורת הטרנספורמרים היא למעשה רשת עצביות המורכבת ממספר שכבות ״attention״ ואחרות, כאשר attention מאפשר להתייחס באפן סלקטיבי לחלק מהקלט. ברשתות טרנספורמרים מעבדים בו זמנית את האלמנטים בשכבת רשת הקלט תוך הפעלת “attention” על השכבה הקודמת.
כך, למעשה, מעבדים בו זמנית את כל המילים במשפט וממדלים את ההשפעה של כל מילה על האחרות, ללא קשר למרחק בין המילים.

שיטת הטרנספורמרים הוצגה לראשונה במאמר ״attention is all you need״ שנכתב על ידי Vaswani et al. שיטה זו משפרת ומעמיקה באופן משמעותי את היכולות של עיבוד השפה, מייעלת את החישוב, מנצלת GPUs בצורה אופטימלית (עקב השימוש המקבילי) ומאפשרת התמודדות טובה יותר עם משפטים ארוכים.

טכנולוגיה זו הובילה לשיפור ניכר במשימות תרגום, גרירה, שאלות ותשובות ורבות נוספות. הצלחתה של הגישה המקבילית הביאה לפרץ של פיתוחים טכנולוגיים תוך ירידת כוחה של השיטה הסידרתית. בנוסף, גרמה הצלחתה לתיאבון רב גם בתחומי בינה מלאכותית משיקים כגון הבנה של סרטי וידאו, פענוח סדרות חלבונים, ועוד.

לימוד מוקדם לא מפוקח – הג’ונגל של הטקסטים

אספקט נוסף שהולך ומתפתח בשנים האחרונות הוא למידה עמוקה באמצעות קורפוסים גדולים של טקסט גולמי לא מתויג. בתחילת הדרך, כמעט כל הלמידה נעשתה בצורה מפוקחת, לדוגמה: המכונה לומדת מזוגות שכל אחד מהם מורכב ממשפט ומספר. כאשר המספר מייצג  סנטימנט מ-1 חיובי חזק ועד 5 שלילי חזק. כשמגיע משפט חדש חוזים את הסנטימנט על בסיס מה שנלמד מהזוגות הקודמים. או, למשל, למידה מזוגות של תמונה ושם אובייקט שמופיע בה, כאשר בהינתן תמונה חדשה מזהים איזה אובייקט נמצא בה. אבל שיטה זו מגבילה את אפשרויות הלמידה, תלויה בעבודת תיוג ידנית, ובמקרה של טקסט אינה מאפשרת לנצל אינפורמציה בקורפוסים של מיליארדי גיגה.

בשנת 2013 הומצא אלגוריתם Word2Vec ומייד אחריו GloVe שאיפשרו למידת שפה לא מפוקחת.  באמצעות האלגוריתמים הללו, נוצל מידע מקורפוסים ענקיים של מילים, על מנת ללמוד ייצוג וקטורי של מילים שמשמר את המשמעות שלהן, למשל הוקטורים של המילים מחשב וצמח יהיו שונים והוקטורים של  “מלכה פחות מלך” יהיו דומים ל “אישה פחות איש”.

הפרדיגמה העומדת בבסיס שיטות אלו היא distributional semantics שהופצה על ידי firth בשנות ה-50 של המאה הקודמת. על פי פרדיגמה זו, מילה מאופיינת באמצעות המילים שבסביבתה. שיטת הטרנסופרמרים משפרת גם את הלמידה הלא מפוקחת ומתמודדת בצורה טובה יותר עם מילים רבות משמעויות. גם אם בסופו של דבר נדרש אימון מפוקח לצורך השגת היעד הסופי, הרי שהקלט לאלגוריתם אינו המילה עצמה אלא היצוג שלה שנלמד קודם לכן (transfer learning) בצורה לא מפוקחת.

אם כן, שיטת הטרנספורמרים הולכת ותופסת נפח גדול יותר בעיבוד השפה ואף החלה נפוצה גם בזיהוי רצפים ביולוגיים וכימיים.

יש עדיין דרך ארוכה לפיצוח טואטאלי של השפה האנושית. בעיות כמו Common sense, הבנת הקשר רחב של משפטים וקונטקסט עדיין מהווים אתגר משמעותי. אך ההתקדמות בשנים האחרונות ואימוץ של השיטות החדשות, מהוות צעד משמעותי בכיוון.

הכתבה בחסות סיטי

מעבדת הפיתוח של סיטי בישראל עוסקת בפיתוח טכנולוגיות פינטק מובילות ומהווה כנס אסטרטגי של סיטי בעולם. העובדים שלנו משפיעים על עיצוב עתיד עולם הבנקאות והפיננסים, באווירה יזמית, ונהנים מפיתוח אישי ומקצועי באוירה של גיוון ותחת הגב הפיננסי של אחד מן הבנקים הגדולים בעולם. לפרטים נוספים, לחצו.

Geektime Insider

קבלו הצצה מבפנים לחברות המובילות בהיי-טק הישראלי. רוצים גם אתם להופיע בגיקטיים אינסיידר? שלחו לנו מייל ונשתף איתכם פרטים נוספים

הגב

4 תגובות על "בדרך לפיצוח השפה הטבעית: טכניקות מסקרנות בלמידה ממוחשבת"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
שמחה
Guest

האם אפשרי היום לבנות טכנולוגיה שמדגישה את החלקים החשובים במאמר? (רעיון לסטרטאפ)

ניר
Guest

אם כבר מזהה את החלקים החשובים, למה להדגיש? יש לך תמצות של הטקסט

שמשון
Guest

הכתבה מכילה טעויות בסיסיות. לדוגמא, במאמר המיוחס, לכל מילה משורשר המיקום שלה כך שאכן הפעולה מקבילית אך המיקום וכתוצאה המרחק נלקח בחשבון. הפסקה הבאה הינה טעות:
“כך, למעשה, מעבדים בו זמנית את כל המילים במשפט וממדלים את ההשפעה של כל מילה על האחרות, ללא קשר למרחק בין המילים.”

לילי
Guest

כתבה מצוינת – מענינית, נהירה וברורה – למי שמתעניין בתחום אך אינו חוקר NLP מיומן.
תודה קרני !!
איזה כיף לקרוא בעברית :)

wpDiscuz

תגיות לכתבה: