מודל שפה זה דבר מורכב. עכשיו תארו לכם להתאים אותו לילדים עם קשיי דיבור ושמיעה?

מודלי שפה לא חסר. אבל כמעט כולם אומנו בעזרת דוברים רהוטים וקריינים. מה עושים כשצריך להתאים אותם לילדים עם קשיי דיבור?

מאת: אדוארד רודיק

בינה מלאכותית שינתה הרבה תעשיות קלאסיות והפכה אותן ליעילות, בטוחות וזולות יותר. אך ישנם עדיין תחומים שה־AI עדיין לא חדר אליהם. קלינאות תקשורת, למשל. לפי הנתונים של המכון הלאומי לחרשות ובעיות תקשורת בארה"ב כשבעה אחוזים מהילדים בגיל 17-3 (או 1 מתוך 12) סובלים מבעיות הקשורות בקול, שפה ודיבור. כיום רק כ־60 אחוז מהילדים מקבלים טיפול, והבעיה המרכזית היא עומס עצום על קלינאי תקשורת, שמטפלים כיום ב־100-80 ילדים במקביל. במקרה הטוב, הם יכולים להקצות 10-5 דקות טיפול בשבוע לכל ילד. באחד המחקרים המעמיקים בתחום, שכלל כ־7,000 משתתפים ונמשך כמעט 30 שנה, נמצא שבעלי לקויות תקשורת סובלים גם בחייהם הבוגרים מרמה סוציואקונומית נמוכה יותר, דימוי עצמי נמוך וסיכון גבוה יותר לבעיות נפשיות. בנוסף, לפי מחקר שנערך לאחרונה בבריטניה, הפרעות תקשורת לא מטופלות הן גורם סיכון משמעותי להתפתחות הילד, וישנה קורלציה בין הפרעות תקשורת לא מטופלות ופשיעה. במסגרות חינוכיות רגילות לקויות תקשורת לא תמיד מתגלות על ידי צוות המורים ולעתים הנושא נקשר לעצלנות, IQ נמוך וחוסר משמעת של הילד.

וכאן בדיוק נכנסת ה-AI. למערכת חכמה יש יתרונות רבים. למשל, היא יכולה לעזור לקלינאי תקשורת בשלבים מסוימים של הטיפול ולהוריד מהם עומס. טיפולים בדרך כלל כוללים שני שלבים עיקריים: לימוד חומר וקונספטים חדשים ותרגול. תרגול, שלרוב אורך לא מעט זמן, הוא חלק מהותי בכל תהליך הלמידה ובמיוחד בתחום של קלינאות תקשורת. מערכת מבוססת AI יכולה לעבוד עם תלמיד בזמן התרגול, לבדוק ביצועים ולדווח לקלינאי על התקדמותו של התלמיד.

מערכת אוטומטית שכזו יכולה לעזור לכמות בלתי מוגבלת של תלמידים בכל שעות היממה, ובהשוואה להשקעה בכוח אדם, מדובר בחיסכון כלכלי משמעותי.

פתרונות קיימים לא מספיק טובים

על פניו הפתרון די פשוט: כדי להבין מה הילד אומר, נשתמש במנוע Speech-to-Text) S2T בקיצור) כמו מנוע של Google, שימיר את אות הדיבור לטקסט. הבעיה היא שמנועי S2T מסחריים מאומנים לרוב באמצעות נתונים שנקלטו מדוברים בוגרים שמדברים יחסית תקין, כמו LibriSpeech, שכולל כ־1,000 שעות של ספרי אודיו. ילדים עם בעיות דיבור ושפה לא מדברים כמו קריינים של ספרים, ולכן לרוב מנועי S2T מסחריים די נכשלים במשימה.

מבדיקות שערכנו למשל עם מנוע S2T המסחרי, גילינו שהוא זיהה נכון רק כ־40-30 אחוז מהמילים שנאמרו על־ידי ילדים בעלי לקויות תקשורת. הפתרון היה ברור: לפתח מערכת S2T שתוכל להבין אותם.

אז איך בונים מערכת AI שיכולה לעזור בקלינאות תקשורת?

עד לפני עידן הרשתות העמוקות בניית S2T הייתה נחלתן של חברות ענק ודרשה השקעה עצומה באיסוף, ניקוי ותיוג נתונים. נדרשו לעתים מאות ואף אלפי שעות של דיבור מתוייג כדי לאמן מודלים קלאסיים, כמו HMM. אך המצב השתנה מאוד עם התפתחותן של רשתות עמוקות.

כדי לפתח S2T עבור ילדים בעלי לקויות תקשורת, השתמשנו ב־Transfer Learning. השיטה הזאת מאפשרת לקחת רשת שעברה אימון למטרה דומה, ולבצע עידון שלה, כדי לשפר את הביצועים עבור נתונים ספציפיים. בתור התורם בחרנו להשתמש ב־wav2vec 2.0. המודל האקוסטי לזיהוי דיבור wav2vec פותח לפני מספר שנים על ידי פייסבוק. זוהי רשת עמוקה מבוססת Transformers. היתרון של wav2vec הוא ביכולת של הרשת ללמוד מנתונים לא מתוייגים. תהליך הלימוד של הרשת מתבצע בשני שלבים: לימוד עצמי על נתונים לא מתוייגים ו־Fine-tuning של נתונים מתוייגים (אות דיבור עם טקסט מתאים).

בתהליך של לימוד עצמי הרשת נדרשת לשחזר חלק מהאות המקורי – חלק נסתר ממנה. כך המערכת לומדת לזהות קולות של השפה ומבנה של הפונמות. בשלב השני המערכת לומדת לקשר בין הפונמות שנלמדו לבין התווים של הטקסט. אחד הדברים המדהימים שגילינו הוא כי כמות הנתונים המתוייגים הנדרשים לשלב השני יכולה להיות קטנה יחסית למערכות קלאסיות: הרשת מצליחה להגיע לשגיאה של 8.2 אחוז לטסט־סט עם 10 דקות של נתונים מתוייגים בלבד. שעה של נתונים מתוייגים משווה ל־5.8 אחוז ו־100 שעות – ארבעה אחוז בלבד. מגוון רשתות wav2vec זמינות לציבור הרחב וניתן להוריד אותם ללא עלות. בחרנו ברשת שעברה אימון מלא על LibriSpeech ו־fine-tuning עם 960 שעות.

כדי לאמן את הרשת אספנו אלפי הקלטות של ילדים עם בעיות תקשורת. איסוף של הנתונים התבצע בזמן טיפולים הנעשים באמצעות המחשב, כאשר חלקם מתוייגים וחלקם לא. כמו שראינו קודם, wav2vec מאפשר לנו גמישות בשימוש בנתונים מתוייגים וגם בכאלה שאינם. נתונים מתוייגים משפרים דיוק של S2T, ולכן תמיד עדיף לתייג את הנתונים. ככל שכמות הנתונים המתוייגים תגדל, כך ישתפר גם הדיוק של המערכת.

לאחר שהנתונים נאספו גייסנו צוות של קלינאי תקשורת כדי לתייג אותם. במהלך התיוג נדרשו המומחים לתת טקסט של ההקלטה וכן לתת אינדיקציות נוספות הקשורות לטיב ההקלטה עצמה. בלא מעט מקרים ישנן הפרעות בזמן השיעור: רעשי רקע, קולות של ילדים נוספים שנמצאים באותו חדר ועוד. שימוש בהקלטות רועשות יכול לסבך את תהליך הלימוד.

לאחר שחלק מהנתונים תויגו, הרצנו עידון (fine-tuning) של מערכת wav2vec על מספר שעות בודדות של נתונים וראינו עלייה דרמטית של דיוק בזיהוי דיבור של ילדים. ה־WER (קצב טעויות בזיהוי מילים) ירד כמעט פי שניים. נכון, זה עדיין לא מגיע לרמת ביצועים של מערכות מסחריות עבור דוברים בוגרים, אך זה הרבה יותר טוב לזיהוי דיבור אצל ילדים. פרויקט תיוג הנתונים עדיין נמשך, אבל כבר ישנה אופטימיות זהירה לגבי תוצאות צפויות.

הכותב הוא Dir. Core Tech ב-AmplioSpeech

 

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

1 תגובה על "מודל שפה זה דבר מורכב. עכשיו תארו לכם להתאים אותו לילדים עם קשיי דיבור ושמיעה?"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
יותם
Guest

יפה לדעת שגם ללא יואב מדן המנוח החברה מתקדמת בהצלחה, אפילו מר שפירא נראה
רגוע הבוקר בבית הקפה

wpDiscuz

תגיות לכתבה: