מטא משחררת מודלי סאונד מרשימים בקוד פתוח שתפורים על תוכניות אקטואליה בישראל

ממודל שמסוגל לחקות את ההד מתמונה למודל שמסוגל להשתיק מריבות (לפחות בווידאו בינתיים), למטא יש כמה פיתוחים חדשים ומאוד מעניינים

תמונה: Oculus​

אוקיי, אנחנו משערים שאנחנו לא היחידים שנמאס להם לשמוע על המטאברס. אותו חזון משונה לדור החדש של האינטרנט שבו כולנו ניפגש במרחבים וירטואליים באמצעות משקפיים וקסדות משונות, ולא נצטרך לקנות יותר כמעט שום דבר חומרי כי הכל יהיה כמובן וירטואלי. אבל לפחות הדרך שם מעניינת וכוללת כמה פיתוחים מאוד מעניינים.

אחרי שבתחילת השבוע חשפה מטא את ההתקדמות שלה בתחום התצוגות למשקפי VR עם כמה אבות טיפוס מאוד משונים ומגניבים, היא חושפת היום התקדמות מעניינת במיוחד דווקא בתחום הסאונד, שמשלים את הראייה שלנו בעולמות וירטואליים, והבונוס: היא עושה את זה בקוד פתוח.

לפחות מההתנסות שלי, הסאונד של משקפי ה-Quest 2 הוא אחד הפיצ׳רים היותר מרשימים, אבל נראה שלמטא זה ממש לא מספיק, כי אחרי הכל, היא מנסה לכוון לסוג של חוויות VR שיהיו תחליף אמיתי לחוויות מציאותיות כמו למשל צפייה בהופעה חיה, או מפגש עם חברים. היום (ו׳) חושפים חוקרים מ-Meta AI ו-Meta Reality Labs ביחד עם אוניברסיטת טקסס שלושה מודלים בקוד פתוח שאמורים לסייע לזיהוי של צלילים בווידאו, ולמצוא את הדרך למקם אותם במרחב בצורה מושלמת ומציאותית, לא משנה איפה אתם נמצאים – ובעיקר להתאים את הסאונד כדי שיהיה ריאליסטי לפחות כמו התמונה.

להתאים את הסאונד למיקום שהוא לא הוקלט בו בכלל

מקור: מטא

המודל הראשון שהציג מארק צוקרברג הוא מודל התאמת מידע ויזואלי למידע אקוסטי. הוא בעצם יכול לקחת קטע קול שהוקלט במקום אחד, לצד תמונה של מקום אחר, ולהתאים את קובץ הסאונד כך שהוא ישמע אקוסטית כאילו הוא הוקלט במקום שנמצא בתמונה. הדוגמה של מטא היא תמונה של מסעדה בצירוף קטע סאונד שהוקלט במערה (עם התהודה האופיינית). התוצאה הסופית של המודל היא הסאונד שהוקלט במערה אבל נשמע כאילו הוא הוקלט במסעדה. כלומר, המודל הזה מסוגל להוסיף תהודה והד תואמים על פי הסביבה המוצגת, כדי שהסאונד יישמע מתאים אקוסטית למיקום המוצג, וכך יתרום לתחושת הריאליזם. כדי לעשות את זה, המודל אומן על סרטונים פומביים ולמד את האלמנטים האקוסטיים שלהם.

אחת הדוגמאות לשימוש מעניין שנותנים במטא הוא למשל לחוות מחדש זכרונות, ולראות הולגרמה למשל של הילדה שלכם בהופעה, כשהסאונד משוחזר בדיוק כמו שאתם זוכרים ששמעתם אותו כשישבתם במיקום הספציפי שבו ישבתם באולם. רק אל תכתבו ״התחלה של פרק של מראה שחורה״ ונתקדם.

למצוא את הסאונד בתחנת רכבת עמוסה והמודל המושלם לכנסת

המודל השני עושה בדיוק את ההיפך, כי הוא מודל ביטול תהודה ויזואלי. במטא נותנים לדוגמה נגן כינור שיושב בתחנת רכבת עמוסה, והמודל מסוגל לזקק את צלילי המוזיקה שלו, בלי הקולות המהדהדים שמגיעים מרחבי התחנה הענקית. כדי לעשות את זה, המודל מזהה גורמים שמשפיעים על התהודה, כמו למשל הצורה של החדר, החומרים שממנו הם עשויים, והמיקום של הדובר – כדי לנטרל את אפקט התהודה.

המודל השלישי והאחרון הוא מודל קול-ויזואלי, שמסוגל לזהות אותות סאונד ואותות ויזואליים, כדי להפריד את הקול הרצוי מרעשי הרקע, כך שתוכלו למשל לעשות מינגלינג במסיבה או לדבר עם חברים בהופעה עמוסה ב-VR ולשמוע אותם בצורה מצוינת. כשאתם רוצים להקשיב לחבר שלכם במסיבה רועשת, אתם משתמשים גם בעיניים שלכם כדי להתרכז בו ולדעת שסאונד ספציפי מגיע מהפה שלו, אז מטא רוצה לעשות בדיוק את זה, אבל וירטואלית.

במטא גם רוצים להשתמש במודל הזה כדי ליצור כתוביות אוטומטיות טובות יותר לסרטונים, ולאפשר לכם להשתתף בוועידות ענק במטאוורס (נו חשבתם שנשרוד את הכתבה הזאת בלי לאזכר את זה שוב?) כשההד והאקוסטיקה משתנים בהתאם למיקום שלכם בחלל.

בהדגמה מרשימה למדי, החוקרים הציגו סרטונים מראיונות מתישים שבהם המרואיין והמראיין רבים אחד השני ואי אפשר לשמוע את מי שלא צועק הכי חזק, או כמו שאנחנו קוראים לזה בישראל: תוכנית אקטואליה. לאחר הפעלה של המודל, הם מצליחים להפריד בין הקולות שלהם ולבודד אותם בצורה מאוד מרשימה (גם אם לא מושלמת), כך שכל פעם רק הקול של אחד מהם נשמע בלי הפרעות כמעט בכלל. רק תפעילו את זה בכנסת ישראל, ואנחנו נכנסים כמשקיעים ראשונים.

קשה עכשיו, הקלה אחר כך

החברה טוענת ששלושת המודלים הללו לא יעזרו רק למשקפי ה-VR שלה ופיתוחים אחרים בנושא, אלא גם לעוזרות קוליות, שיוכלו באמצעותם להבין מה אנחנו אומרים להן, ולא משנה אם אנחנו בהופעה, מסיבה או במקום רועש אחר.

על אף החזון המאוד לא ברור והדי שאפתני של מארק צוקרברג (שאולי הוביל לעזיבתה של מספר 2 שלו), מטא מציגה בשבועות האחרונים כמה התקדמויות מדעיות וטכנולוגיות מאוד מרשימות שגם אם לא יגיעו בסופו של דבר לאותו Metaverse, עדיין יכולות לעזור לפיתוחים רבים אחרים להתקדם בצורה משמעותית. בין תצוגות לאלגוריתמים ומודלים פרקטיים יותר ופחות, אולי יצא מכאן משהו שבאמת ישפיע עליכם בשנים הקרובות. ואולי לא.

מטא ואוניברסיטת טקסס פירסמו מאמרים וסרטונים רבים על המודלים, כולל את הקוד שלהם, ואתם יכולים לקרוא עוד עליהם כאן, כאן וכאן.

והנה הדמו של מטא


עידן בן טובים

נולד עם ג׳ויסטיק ביד. יש לו הרבה יותר מדי גאדג׳טים והרבה פחות מדי זמן פנוי כדי לשחק עם כולם. בעל פטיש לא מוסבר לביצוע קליברציות לסוללות של מכשירים. כשהוא לא עסוק בלכתוב על טכנולוגיה, הוא אוהב לדבר עליה, והרבה

הגב

רוצה להיות הראשון להגיב?

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

wpDiscuz

תגיות לכתבה: