נסו בעצמכם: חוקרים ישראליים פיתחו מנוע שיקריא כל טקסט בקול אנושי

במקום הקול הרובוטי של מערכות Text To Speech, החוקרים ממעבדות IBM בחיפה הצליחו לפתח מערכת נוירונית חדשה שמקריאה טקסט בקול הרבה יותר אנושי

תמונה: Pixabay

העוזרות הקוליות שבמכשירים של כולנו, ובעיקר אלכסה של אמזון והעוזרת הקולית של גוגל, השתפרו פלאים במהלך השנים האחרונות. הן אמנם מתפתחות לעוד ועוד מכשירים והופכות להרבה יותר חכמות, אבל כל מי שאי פעם ביקש מעוזרת קולית או מנוע קולי להקריא משפט או כתבה, וודאי שם לב שהקול שמדבר אלינו נשמע עדיין רובוטי לרוב ולא טבעי באמת. חוקרים ממעבדת המחקר של IBM בחיפה לקחו על עצמם את המשימה הלא פשוטה הזאת, והצליחו לפתח קול אנושי למדי שעשוי לתת דחיפה טכנולוגית משמעותית לקטגוריה הצומחת הזאת.

3 רשתות נוירוניות עמוקות לומדות את המילים, וחוזות את אופן הביטוי שלהן

פיתוח של מערכות Text to Speech, או TTS, שעליהן מתבססים חלק מהפיצ’רים של עוזרות קוליות, מתבצע בדרך כלל על ידי הקלטות של מילים, חלקי מילים והברות שונות, ובסופו של דבר ביצוע חיבור קצת גס שלהם בהתאם לטקסט הנכתב למשפטים שלמים שמוקראים על ידי המערכת בצורה די מסונתזת. צוות החוקרים במעבדות IBM בחיפה, בהובלת ד”ר רון חורי, פיתחו שיטה מעט שונה העושה שימוש ב-3 רשתות Deep Neural אשר לומדות את המילים עצמן במהלך האימון של המערכת.

תמונה: IBM

לאחר תהליך האימון של אופן הדיבור של בני אדם, המערכת של IBM מסוגלת לקבל את הקלט הכתוב ולהעביר אותו מספר שלבי ניתוח בדרך להקראה. ד”ר חורי מסביר בשיחה עם גיקטיים כי השלב הראשון חוזה את הפרוזודיה (האינטונציה של הדובר), מנעד הצליל (Pitch) ואת אורך הפונמות (יחידות הגייה שמסמלות הפרדה ושוני בין מילים) שמחולצות מן הטקסט.

השלב השני מקבל את הנתונים, חוזה את המאפיינים האקוסטיים של הדיבור ומתרגם אותם לייצוג ספקטרלי (מאפיינים מבוססי תדרים) בהפרדה גבוהה. לאחר מכן, השלב האחרון, מקודד הקול, מפענח את המידע האקוסטי שנוצר בשלבים הקודמים ומייצר את הסיגנלים ב-22KHz. התוצאה של ההתחשבות בכל האלמנטים הללו בדיבור, במקום הדבקה של הברות, מאפשרת לפיתוח החדש להפיק קול הרבה יותר אנושי, חלק ונקי.

מימין לשמאל: צבי קונס סלבה שכטמן רון חורי אלכס סורין, חוקרים במעבדת המחקר של IBM בחיפה.
תמונה: IBM Research

ד”ר חורי מסביר כי אחד היתרונות במערכת ובגישה החדשה יחסית הזו, הוא שלאחר האימון של הרשת הנוירונית ניתן להמיר את הקול המופק לסגנון דיבור וקולות שונים, מה שיאפשר למשל שימוש לצורך מיתוג או פרסנוליזציה של הקול המופק בקלות.

עד כה, הפיתוח החדש הותאם כדי לאפשר אימון של מערכות text-to-speech באנגלית (בריטית ואמריקאית), ספרדית (ספרד), ספרדית דרום אמריקנית וספרדית צפון אמריקאית, פורטוגזית, גרמנית, צרפתית, איטלקית ובקרוב גם יפנית. ב-IBM מדווחים כי השירות החדש זמין גם בשירותי הענן הציבורי וגם בשירותי הענן הפרטי של החברה. אחד היישומים הראשונים לשימוש במנוע נמצאת בשירות Voice Gateway ש-IBM מציעה, המאפשר מעין שירות טלפוני עם בוט שמשוחחים עם הלקוח, כך שהמנוע החדש יאפשר קול הרבה יותר טבעי של אותו בוט.

אתם יכולים לגרום למערכת להקריא כל טקסט שרק תרצו, כבר עכשיו

בדרך כלל כשאנחנו מדווחים על פיתוחים שכאלו, אנחנו נאלצים להשתמש בדמיון או בדוגמאות שסופקו על ידי החברה המפתחת, אבל במקרה של מערכת ה-TTS החדשה של IBM, החברה מאפשרת לכולם להתנסות בה. היכנסו לאתר הדמו הייעודי, ביחרו בקול ובשפה שאתם רוצים להקריא בה את הטקסט, כיתבו או הדביקו מה שאתם רוצים, והאזינו לקול החדש מקריא אותו באחד האופנים המוצלחים ביותר שנתקלנו בהן עד היום. מושלם זה עדיין לא, אבל זה בהחלט מרשים.

כמובן ששאלנו את ד”ר חור האם המנוע יכול לפעול גם בעברית, ולכך הוא השיב בחיוב, אך הוסיף כי נכון לעכשיו אין לצוות תוכניות לפתח אותו גם בשפת הקודש, אז תיאלצו להסתפק באנגלית בינתיים.

גוגל מפתחת גם היא מנגנון בשם “DeepMind” ומודל בשם “WaveNet” שמנסים לפתור את אותה בעיה. במקום לחתוך ולהרכיב מחדש קולות והברות, המערכת של גוגל לומדת קולות אמיתיים, ויוצרת מגוון של צלילים בעצמה. במהלך השנה האחרונה גוגל הדגימה את היכולות של המערכת כאשר היא איפשרה לה לקחת את קולו של הזמר ג’ון לג’נד, ולהטמיע אותו במערכת של העוזרת הקולית של גוגל בתור “עוזר קולי אורח”. סונדר פיצ’אי, מנכ”ל גוגל, הסביר על במת Google I/O 2018 כי הפיתוח איפשר לחברה לקצר את זמן השהייה של לג’נד באולפן ההקלטות, והמודל הצליח בכל זאת להפיק תעתיק מוצלח של הקול שלו.

עידן בן טובים

נולד עם ג׳ויסטיק ביד. יש לו הרבה יותר מדי גאדג׳טים והרבה פחות מדי זמן פנוי כדי לשחק עם כולם. בעל פטיש לא מוסבר לביצוע קליברציות לסוללות של מכשירים. כשהוא לא עסוק בלכתוב על טכנולוגיה, הוא אוהב לדבר עליה, והרבה

הגב

8 תגובות על "נסו בעצמכם: חוקרים ישראליים פיתחו מנוע שיקריא כל טקסט בקול אנושי"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
avi12
Member

האלגוריתם מהווה תחרות חזקה במיוחד ל-WaveNet של Google.
זאת משום, שבעוד WaveNet נשמע יחסית אנושי, הוא דורש המון כוח עיבוד, כך שבשביל באמת להבין את הכוח שלו – אפשר רק להבין זה באמצעות Samples, בעוד שהאלגוריתם הזה של IBM מסוגל לנתח את הטקסט בזמן קצר מאוד, כך שאפשר לשמוע את העיבוד לקול אחרי כמה שניות בלבד.

Dan
Guest

שיתביישו להם שלא פיתחו דבר ראשון בעברית.
אגב, WaveNet של גוגל הרבה יותר טובה ובתוך שנה-שנתיים תציג גם עברית.

אריה
Guest

כמו שהעוזרות הקולית שלהם דוברת עברית…

ASD
Guest

אתה אומר את זה כאילו לפתח לעברית זה פשוט כמו alt+shift

משה
Guest

ניסיתי את הקסם…. לא עבד…
(מאק, ספארי)

avi12
Member

כמו ששמעתי בסרטון אחד, “Safari is the new Internet Explorer”.
עבור ל-Chrome/Firefox.

אופן סורס
Guest

לא עובד

איציק
Guest

עובד נחמד בקולות ספיציפים. כשביקשתי מהם להקריא לי את המשפט : אני מחפש חברת שליחויות שתעביר ספה ישנה וקרועה מנקודה א’ לנקודה ג’, ללא שימוש ברכב או בסבלים, או במשאית, או בכל מנשא אחר. המערכת קצת זייפה.

wpDiscuz

תגיות לכתבה: