המהפכה שנולדה ב-2010: מחשבים החלו להבין קול אנושי

פריצת דרך ב-2010 היא זו שאחראית לעובדה שאנחנו מדברים היום עם מכשירים והם מבינים מה אנחנו רוצים מהם. בשנים הקרובות זה צפוי להתקרב לראשונה ליכולת האנושית

מאת ד"ר מיכה בריקסטון

בשנת 2010 פרצה טכנולוגיה חדשה ומסעירה אל קדמת הבמה של עולם הבינה המלאכותית. בתוך חודשים ספורים, בזכות שילוב של כוח מחשוב מתקדם וכמויות מידע אדירות, התאפשר לאלגוריתמים מתוחכמים שהומצאו עוד בשנות החמישים של המאה הקודמת להפוך מתרגיל מחשבה אקדמי לחוד החנית של התעשייה. האלגוריתמים האלה – רשתות עצביות עמוקות (Deep Neural Networks) – פרצו גבולות, שברו שיאים, וקבעו הישגים בעולם הבינה המלאכותית שבמובנים רבים קפא על שמריו במשך עשרות שנים.

אחד התחומים שבהם נרשמו ההישגים המשמעותיים ביותר היה תחום התעֲתוּק האוטומטי, כלומר היכולת של מחשבים "להאזין" להקלטה ולהמירה למילים כתובות. אחוזי הדיוק של מנועי התמלול זינקו מ-84% ב-2012 אל קרוב ל-90% בתוך פחות משנתיים. כדי להמחיש את גודל ההישג, דמיינו את יוסיין בולט עולה על מסלול המאה מטר ומנפץ את שיאו הקודם שעמד על 9.58 שניות כדי לסיים ב-6.1 שניות בלבד. עשירית שנייה אטי יותר מצ'יטה.

ההישגים האלה לא נזקפו לזכות חברה או קבוצת מחקר אחת. למעשה כבר שנים שמתקיים מרוץ מדעי שבו השיאים החדשים מחליפים ידיים מדי כמה חודשים, ולעתים אף שבועות, כשהטוענות המרכזיות לכתר הן גוגל, מיקרוסופט, באידו ו-IBM. אולם המרוץ הזה לא יימשך לעד. למעשה, אליבא דמיקרוסופט ו-IBM, אנו הולכים ומתקרבים לישורת האחרונה.

מתקרבים במהירות ליכולת האנושית

איכות התעֲתוּק האנושית (כלומר הדיוק שבני אדם מגיעים אליו כשהם מתמללים שיחה באופן ידני) היא מעט פחות מ-95%. מרגע שמנועים אוטומטיים יגיעו לאיכות כזו יוכלו מחשבים לתמלל כל שיחה באופן אוטומטי, מידי, ו(כמעט) מושלם. זה הישג שקשה להגזים בחשיבותו, הן מבחינה מדעית והן מבחינה כלכלית. למעשה כל המידע הדבוּר בעולם יהיה ניתן לתמלול, ולכן גם ניתן לחיפוש, סיווג, וניתוח אוטומטי.

באוקטובר 2016 הצהירה חברת מיקרוסופט בקול תרועה כי הצליחה להשתוות לרמת האיכות האנושית בתמלול – 94% לפי אומדנה – ובחודשים שעברו מאז מיקרוסופט ו-IBM מנהלות קרב איתנים מעל כותרות העיתונים, כשהן מחליפות מהלומות מילוליות בכל כמה שבועות וכל אחת טוענת לכתר הנכסף (ראו לדוגמה סקירה כאן).

אבל כמו בכל תחום מדעי "חם" שמגיע לכותרות, המצב למעשה מורכב יותר ממה שחברות הענק מנסות להציג.

כדי להבין מדוע המצב סבוך יותר, יש להבין את האופן בו נמדדת איכות התמלול. נניח שבשיחת טלפון אחת הדוברות מפטירה "יאללה חייבת לרוץ, מסיימת את הטור לגיקטיים", ומנוע התמלול (הלא מושלם) פולט את המשפט "יאללה חייבת תירוץ, מסיים את הטור לגיק טעים". על-מנת לתקן את כל הטעויות במשפט המתומלל עלינו לבצע ארבע פעולות עריכה:

"תירוץ" ← "לרוץ"
"מסיים" ← "מסיימת"
לגיק ← לגיקטיים
מחיקת "טעים"

במשפט המקורי יש 8 מילים, ואחוז הדיוק מחושב לפי השיעור היחסי של פעולות עריכה. כלומר 4 עריכות על-פני 8 מילים. הווה אומר 50% דיוק. לא תוצאה טובה במיוחד. לשם השוואה, איכות אנושית מציבה מקסימום של פעולת עריכה יחידה על כל 20 מלים לערך.

אז האם מיקרוסופט ולאחר מכן IBM אכן השיגו את הגביע הקדוש (5% שגיאה בקירוב)? התשובה היא מעט מורכבת, אך במשפט אחד: בתנאי מעבדה – כן, באופן פרקטי – ממש לא.

העולם מורכב יותר מתנאי מעבדה

אם בוחנים לעומק את המחקר המדעי של מיקרוסופט ו-IBM, מגלים שהשיחות שעליהן התבצעו הבדיקות נערכו בתנאים אקוסטיים אופטימליים, בין דוברי אנגלית ללא מבטא זר, וכשאוצר המילים ידוע מראש. בנוסף, מסתבר שהשיחות הוקלטו לפני 17 שנה, כך שהמנועים ודאי עברו אופטימיזציה בלתי-מכוונת במשך יותר מעשור של כוונונים ובדיקות.

באופן פרקטי – כלומר בתנאים שאינם תנאי מעבדה (רעשי רקע, דוברים לא רהוטים או בעלי מבטא המשתמשים באוצר מלים שאינו ידוע מראש כגון שמות של אנשים, קיצורים, וסלנג) – התוצאות גרועות בהרבה. מהרצה של מנועי התמלול הגנריים של חברות הענק (גוגל, מיקרוסופט, IBM) מתקבלת תמונה שונה בתכלית, ולפיה אחוז השגיאה על שיחות בתנאי האזנה סבירים עומד על 20% עד 25% אחוזי שגיאה. כלומר פעולת עריכה אחת על כל 4 או חמש מלים. המספרים אמנם טובים בהרבה מהדוגמה שניתנה לעיל, אך עדיין עולה מהם כי יש מרחב גדול לשיפור, ולפי קצב ההתקדמות בשנים האחרונות, סביר שנראה שיפורים מהותיים בתוצאות בעתיד הקרוב.

אבל עד שהעתיד יגיע מסתבר שיש אפשרות די נפלאה לשיפור איכותני גם בתנאי-שטח אמתיים ורועשים. באופן מפתיע, אפשרות זו פתוחה לא רק עבור חברות ענק אלא גם עבור גופים קטנים בהרבה ובכללם חברות סטארטאפ. כדי להבין זאת יש להבין כיצד מנועי תמלול בנויים.

האלגוריתמים שמפענחים שמע ומתמללים אותו לטקסט מאומנים על כמויות מידע עצומות כדי לבנות שני מודלים נפרדים. מודל אחד נקרא המודל האקוסטי (acoustic model) והוא מייצג את המיפוי בין הגל האנלוגי לבין הפונמה (הֶגְיָן, או יחידת הצליל שממנה מורכבת מילה), והמודל השני נקרא המודל השפתי (Language Model) המייצג את ההסתברויות והתלויות בין מילים במשפט. בנוסף יש מילון פונטי (Phonetic Dictionary) שעוזר למפות בין המודל האקוסטי למודל השפתי.

המודל האקוסטי נבנה על ידי רשת עצבית עמוקה המאומנת על אלפי שעות שיחה מתומללות, והמודל השפתי מאומן על משפטים הכוללים מאות מיליונים ולעתים אף מיליארדי מלים, וכאן מגיע הטוויסט. בעוד שלחברות הענק יש כמויות מידע גדולות בסדרי גודל רבים מאשר לחברות סטארט-אפ, לחברות סטארט-אפ עשוי להיות יתרון משמעותי: איכות המידע.

בהנחה שהתמלול המבוקש ממוקד בפתרון בעיה ספציפית, כגון תמלול דיונים פוליטיים, תמלול מסיבות עיתונאים בנושאי כלכלה, או תמלול של שיחות עסקיות, מתברר שיש יתרון עצום למידע שמגיע מתוך אותו מרחב סמנטי. כך, חברה המתמחה בתמלול עבור תחום ספציפי יכולה לאסוף כמות קטנה יותר של מידע (הכול יחסי כמובן; עדיין מדובר במידע הנחצב מתוך מאות אלפי שעות שיחה, אך לא מידע מתוך מאות מיליונים של שעות) ובכל זאת להגיע לתוצאות טובות יותר מן המנועים הגנריים של חברות הענק.

התוצאות האמפיריות מראות שבהינתן מידע איכותי, ניתן להגיע לשיפור של כ-15% לפחות על פני מנועים גנריים, מבלי לפגוע יתר על המידה בכלליות המנוע, מה שמאפשר גם לשחקניות קטנות ליטול חלק משמעותי במרוץ החשוב הזה. עם זאת, גם בעזרת כמות גדולה של מידע ממוקד, המרחק מאיכות אנושית עדיין גדול, ולכן המרוץ למנוע התמלול המושלם צפוי להימשך שנים לא מועטות.

עד שנגיע ליעד הנחשק, נראה שדאטה והבנה מעמיקה של התחום הסמנטי ימשיכו להיות יתרון גדול לכל חברה העוסקת בניתוח והבנה של שיחות ומידע דבור.

הכותב הינו ד"ר לסמנטיקה פורמלית, מייסד חברת Chorus.ai המנתחת שיחות מכירה באמצעות בינה מלאכותית

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

3 Comments on "המהפכה שנולדה ב-2010: מחשבים החלו להבין קול אנושי"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 
Sort by:   newest | oldest | most voted
משה
Guest
הכותרת אינה מדוייקת. המקנטוש ידע ״להקשיב״ כבר באלף הקודם. הפעולות שהמחשב עשה כתוצאה מההקשבה היו מבוססות ׳אפל סקריפט׳. בכל אופן, החלק המעניין במערכת הזו היה עוד לפני שהפעולה בוצעה. הקול הנקלט היה עובר כמה תחנות. הוא פורק לגורמים, עבר דרך דיקשנרי (לתיקונים) ומתוך זה היה יוצא משפט, שאם הוא היה קיים כפקודה (אפל סקריפט) זו היתה מבוצעת. המחשב הגיע עם כמה מאות פקודות מובנות ובפועל, מוגבלים היו מסוגלים לתפעל את המערכת. היו למערכת 2 חולשות: אחת, היא הבינה רק אנגלית. והחולשה הנוספת היא: אם היית מדבר אל המחשב כמו אל ילד מפגר, הוא בשום פנים לא היה מבין. היה צריך… Read more »
אחד שלא יודע
Guest
אחד שלא יודע

אם היום הורים מתלהבים שהילד יודע לעבוד עם האייפד מגיל אפס, תארו לכם את השיחות שהוא יקיים עם אלקסה ואפילו לא יבין מה קרה..

גבינה מלכותית
Guest
גבינה מלכותית

"deep learning" מילת הבאאז החדשה בדומה "מחשוב ענן"
האלגוריתמים לא השתנו הרבה( אולי אני טועה, לא בתחום מ2008 )
מה שהשתנה בעיקר זה יכולת העיבוד( כרטיס גרפי=מטחנת מטריצות ) ועלייתן לאויר של סיפריות קוד מיקצועיות הנתמכות על ידי חברות גדולות
שינוי הרבה יותר גדול צפוי כשibm תתחיל להתיחס לניורל-פרוססור שלה בצורה מיסחרית

wpDiscuz

תגיות לכתבה: