לדבר אל המכשירים: UX בממשק קולי

מהקראת כתובת ל-Waze ועד לעוזרות אישיות ממוחשבות, יותר מוצרים ושירותים עושים את דרכם לענן ונשלטים באמצעות פקודות קוליות. הילה יונתן מדברת על המגמה בפרספקטיבה של יצירת חווית משתמש, ומה זה אומר על המוצר או הפיצ’ר המעניינים הבאים איתם אנחנו הולכים לעבוד?

מקור: ShutterStock

סירי שינתה, כנראה לתמיד, את הדרך שבה אנו רואים את המכשירים הטכנולוגיים שלנו.

נכון, חלק גדול מההייפ סביב סירי היה נגזרת ישירה של העובדה שמדובר במוצר דגל של Apple (עד כמה שניתן להגדיר את סירי כמוצר), אך גם המבקר הספקן ביותר יתקשה להתעלם מהחשיבות של העוזרת האישית החדשה הנוצצת, עליה ג’ובס הימר.

אינספור אנשים העלו סרטונים שעוסקים באינטראקציות שלהם מול סירי, רשימות באזפיד של “20 המשפטים המצחיקים ביותר של סירי”, ואף דרמטיזציה של הנושא כפי שהמחישו בסרט Her, עם סקרלט ג’והנסון בתפקיד סירי-לא-סירי. משם, ממשקי הקול רק נדחפו לקדמת הבמה.

אז מה יש בטכנולוגיה הזאת, המאפשרת לנו לדבר עם מכשירים בבית, שמשנה לנו את העולם מול העיניים? איך זה משפיע על המוצרים אותם נצרוך בעתיד? או מהזווית המקצועית: מה זה אומר על הממשקים הבאים, ובאיזו מידה בעלי המקצוע שמתכננים אותם יצטרכו לשדרג את אופן החשיבה שלהם?

מקור: ShutterStock

מה עושים עם הדבר הזה, תכלס?

ככל שאנחנו לומדים יותר על אוטומציה, והמכשירים סביבנו נעשים יותר ויותר חכמים – וכך גם רואים יותר ממשקי רשת וקול במוצרים שונים. כלומר, אם לפני מספר שנים דיברנו על IoT (“האינטרנט של הדברים”, קונספט לפיו כל פריט יכול להיות יישות ברשת), אנחנו מגלים שהיום זה כבר לא רעיון מסדרת מדע בדיוני, אלא מציאות קיימת.

המגמה באה לידי ביטוי בעקבות שני מישורים שהתקדמו אחד לקראת השני.
הראשון – קיומה של אפליקציה לכל דבר. רוב מכשירי החשמל, בתצורה כזאת או אחרת, מגיעים עם אפליקציית שליטה. החל מתאורה המחוברת לרשת, דרך מדפסות אלחוטיות או טלוויזיות חכמות, ועד ליכולת לנעול את דלת הבית בלחיצה על כפתור מאוד ברור וגדול דרך אפליקציה ייעודית.
המישור השני – עוזרות חכמות. אם לפני כמה שנים היה מדובר רק במד”ב, היום ניתן לראות שכולם הצטרפו לחגיגה: זה התחיל בסירי, המשיך למוצרי אמאזון Echo שהציגו את “אלכסה”, גוגל שהציגו את “אסיסטנט” (מסוקרנת על ההחלטה לא לתת שם אנושי לגברת/אדון) ואפילו מיקרוסופט שלפו את קורטנה מעולם משחקי המחשב. כולן מחוברות לחשבונות שלכם, כולן יודעות לתזכר אתכם על פגישה חשובה או לקבוע טיימר לבישול ביצה רכה – אבל יש פה פוטנציאל להרבה מעבר לכך.

בזמן האחרון, אנו רואים את המישורים הללו מתלכדים למוצר אחד, מרכזי וכולל. אז, אם הייתם מעסיקים עוזרים אישיים אמיתיים, שהיו יכולים לעשות הרבה מהפעולות במקומכם (להוציא כרגע פעולות שאינן מוגדרות, כמו “להרים מהרצפה” או “לארוז תיק לאנשהו”), מה הייתם מבקשים מהם שיבצעו, ומתי?

מקור: ShutterStock

לנהל את היומיום דרך הענן

מבחינת התנהלות יומיומית – חיבור הטלפון לדיבורית הרכב יאפשר לי לומר “Hey Google, good morning!” – שיוודא שהתריסים סגורים, המזגן מכובה, האורות כבויים, יעדכן על עומסים במסלול הנסיעה, יקריא אייטמים מלוח השנה, ויקנח בהפעלת פלייליסט נהיגה בספוטיפיי. אמרתי ארבע מילים, קיבלתי מענה שלם ומקיף, עם מידה רבה של delight.

כמות המוצרים שמבוססים מראש על התנהלות קולית, או מציעים רכיב מהסוג הזה, נמצאת בגדילה. מרפרוף קל, אוכל לציין את נורות ה-Philips ו-Xiaomi הנשלטות באמצעות קול (לרמת קביעת תרחישים), מרכז השליטה מבוסס האינפרא-אדום RM-Pro שיכול לשלוט במבחר רב של מוצרים, Sensibo ו-Switcher הישראליים הדואגים למזגן והדוד החשמלי בהתאמה, מקררים, שואבי אבק, תריסים, שקעים חשמליים ועוד, כגבולות הדמיון.

מקור: ShutterStock

מעל כל אלו, מתנהלות אפליקציות דוגמת Google Home המאפשרות חיבור עם עשרות שירותים חיצוניים, ויצירת ריטואלים – תוך חיבור אינטגרלי לאסיסטנט. כלומר, כל הבית שלנו מחובר לאינטרנט, כולו מנוהל על ידי בקשות – וחשוב מכך, מלבד כיול ראשוני, כל הממשקים האפליקטיביים הייעודיים יכולים להיחסך ברגע שמחברים אותם לאסיסטנט שלכם.

אם זה לא מספיק, הקדישו רגע מיומכם לצפות בהדגמת התכלית הזו של גוגל:

גם אם מדובר בתצוגת תכלית “מהונדסת” במקצת – אני בטוחה שגוגל בדרך לשם, ולו רק כדי לשמור על ערך המניה שלהם :)

עידן הפוסט-מסך וחוויות המשתמשים

מערכות מבוססות קול או דיבור הינן דוגמא לאינטראקציית אדם-מחשב טהורה, דרך חושים שונים. אין ממשק משתמש ויזואלי, אין מסכים, כמעט, כאשר כן מתקיים תהליך (בשאיפה, קצר מאוד) של onboarding וכמובן שעולה הצורך לתכנן אותו נכון. הציפייה היא שהמשתמש הממוצע יפעיל את המכשיר, יחבר אותו לאינטרנט באמצעות אפליקציה בסיסית – ומאותה נקודה, יתחיל לדבר, ללא הקדשת מחשבה נוספת.

במסגרת תפקידי כאשת UX, אני מכוונת לאינטואיציה של הקהל עבורו אני מייצרת את החוויה. בטוחה שרובנו כבר היום משקיעים לא מעט זמן ומחשבה בתכנון, במחקר ויישום של דרכי השימוש וההתנהגות של המשתמשים. הכל במטרה שניתן יהיה לבצע את הפעולה המרכזית בצורה הנוחה והשקופה ביותר. אם ניקח את זה צעד קדימה: היכולת של המערכת שלכם לנהל שיח עם המשתמש היא מהותית ביותר, חשבו על הקושי שביצירת אינגייג’מנט (אינטואטיבי) ותוסיפו לזה – שעכשיו לא עושים זאת דרך הנגשה ויזואלית.

כלומר, מבחינת הממשקים והחוויות שאנו מתכננים, ניתן לחזות מהפך. אם התרכזנו במסכים, בניראות, במיקרו-אינטראקציות (כל אלו עדיין נכונים ורלוונטיים), פתאום יש לנו תחום חדש לחקור, שכולל: עצי שיחה, תרחישי קצה מיידיים יותר, נימה וטון, מקורות מידע, נושאי שיחה, עיבוד וניתוח בזמן אמת והיד עוד נטויה.

האמינו לי, לבצע מחקר משתמשים כמותי עבור דבר כזה דורש קודם כל שינוי תפיסה. החל מלבדוק מהי הדרך הפשוטה ביותר לנסח שאלה (שאחריה תתקבל תשובה קולעת), ועד לחוויה שלמה שאינה רובוטית או קריפית מדי :)

מקור: ShutterStock

שיחות עם קולגות מתחומים משיקים מאשרות כי נדרשת גם היערכות מסוגים הקרובים לתחום חוויית המשתמש. התוכן עצמו חייב להיות מותאם וממוקד דיו כדי להיות תשובה הראויה לשאלה קולית. הכוונה כאן היא להיערכות טכנית חשובה המשפיעה על יכולת הסריקה והפירוש ע”י גוגל ומערכות נוספות. במידה ומתקיימים מהלכי שיווק – חשוב שגם הם יהיו הולמים את החוויה החדשה שמנסים להעביר. כבר לא מדובר באלגוריתמים בלבד, אלא במערכות וירטואליות, המתחברות באופן seamless למוצרים פיזיים תוך ביטול הצורך ב”אפליקציות הרשמיות” לחלוטין למי שיהיה מעוניין בכך. לכן, תפקידם של מאפייני UX בשלבים של פיתוח מוצר הכולל בתוכו (או המבוסס לחלוטין על) קומפוננטת קול, הינו מהותי ומרכזי בהיבט של תכנון הפעילות כולה.

בפעם הבאה שאתם אומרים “היי גוגל, ספרי לי בדיחה”, “שני את האור לטורקיז”, ו”תספרי כבשים לפני השינה” (בבקשה :)) ומקבלים בקלות תוכן משעשע, אינפורמטיבי או שימושי, המתאים לכל המשפחה ולא מעליב אף אחד – זכרו שיש אנשי חוויית משתמש שהקדישו מחשבה להנדסת התהליך.

להתאים את עצמנו

אספתי לכם כאן מספר נקודות בסיס שכדאי להתייחס אליהן כשחושבים על ממשק קולי, אם נתבונן בשיחה אנושית וננסה להבין איך הממשק אמור להשמע ולהרגיש.

1. פנייה לקשב, אינטואטיביות והמשכיות

הגדרה למערכת מוצלחת ומבוססת דיבור מסתמכת רבות על היכולת של המשתמש לנהל איתה תקשורת בצורה חלקה. כל גימגום, אי הבנה או תשובה לא רלוונטית רק יעמיקו את הפער התפיסתי ויזכירו לאדם המתנהל מול הממשק הקולי את האמת הבסיסית – שמדובר בתוכנה. על מנת לייצר את האשליה המושלמת, יש לכוון לחוויה פלואידית ככל שניתן. ברגע שהממשק הקולי הגיע לרמה בה היוזר מסוגל לנהל שיחה שלמה (רצף של משפטים, להבדיל מבקשה בודדת), ניתן להניח ששאר התנאים מתקיימים כבר.

חשוב לזכור שבממשקים בהם פונים לקשב של בני אדם, כדאי שהאינטראקציה תהיה אפילו יותר אינטואטיבית מהרגיל, זאת כדי להביא אותנו למקום בו אנו מנהלים תקשורת מילולית עם מה שבמהותו הוא אלגוריתם. אם מבחן טיורינג בוחן את היכולת של מחשב להישמע אמין עבור בודק אנושי – בעיניי, ממשקים קוליים מסוימים כבר מזמן עברו את המבחן הזה, עד לנקודה בה ההבדל כמעט מטושטש (או שיש צורך לגרום לקול הדיבור להישמע מעט “מכונתי”, כדי לא לייצר דיסוננס גדול מדי).

מקור: ShutterStock

2. בניית עץ תרחישים

בואו נבחן תהליך בסיסי יחסית – קביעת בראנץ’ עם חבר, על כל המשתמע מכך, כשאנחנו מבצעים זאת בעצמנו. אנו צריכים לתאם על בסיס זמן פנוי אצל שנינו, לקבל אישור, לשמור בלוחות השנה, באופן שכולל את השעה והמיקום הספציפי (ככה שהכתובת גם תהיה קליקבילית לטובת ניווט). קל לראות עד כמה רצף פעולות כזה עשוי לאתגר תוכנה, וכמה “עצי תרחישים” עניין טריוויאלי כזה דורש. חלק מהותי מחוויית השימוש במערכות המפועלות על ידי קול מוכתב על ידי עצי תרחישים מפורטים ככל הניתן, כדי לתת מענה לכמות גדולה של מצבי קצה. נקודות בונוס, אם המערכת “לומדת” ומייצרת עצי שיחה חדשים בכוחות עצמה – מה שמוביל למילת הבאזז הפופולרית machine learning.

או למשל, כשאני מנהלת שיחות עם הגוגל אסיסטנט שלי, אני מקפידה לומר “תודה” בסוף חילופי הדברים. המשמעות של זה, עבורי כאשת חוויית משתמש, היא שהחוויה כנראה היתה מוצלחת (וסוף העץ). כאשר הממשק העיקרי הוא קול, ומשתמש אומר את ה”אקסטרה” שהוא להודות למערכת – זוהי העדות העיקרית לכך שהמטרה הושגה. אם תרבות הסמסים והסטוריז הובילה ליצירת תוכן מקוצר ופעולות מיידיות. בהיבט של שפה, מרגילים אותנו שוב ליצירת שיח של משפטים ברורים ושלמים, עם נושא נשוא ונימוס :) מוזמנים לנסות בעצמכם…

מקור: ShutterStock

3. מדידת ממשקים קוליים ומחקרי משתמשים

עבור מי מכם שעוסק בפיתוח ממשקי קול (או קומפוננטות המופעלות קולית), הייתי מציעה להתחיל לחשוב על מחקרים כמותיים, מוקדם בחיי המוצר. בשלב מסוים תהיה דרישה למדידת performance של המערכת – דבר שמחייב קיומם של KPI ספציפיים.

המדד ה”אובייס” הוא כמות הפעולות שהושלמו בהצלחה, אבל עבורי מדובר גם בשיחה רצופה. כלומר, היכולת של המערכת לקיים סשן של יותר מפעולה אחת בתוך אותו קונטקסט, תוך שמירה על הביג-דאטה שהארגון אוסף במקביל, לטובת שיפור האלגוריתם.
מחקרים בתחום המערכות הקוליות גם כוללים שני נדבכים מרכזיים: מחקרי משתמשים איכותניים, ומידע כמותי.

נתחיל מהקל. מחקרי משתמשים בהקשר האיכותני הם די straightforward: במקרה הטוב לדבר עם המשתמשים עצמם, להאזין למבנה ממוצע של שיחה, או במקרים הפחות טובים – פלט טקסטואלי של שיחות. המטרה היא לזהות אם התהליך הושלם בהצלחה, ואם השיחה היתה חיובית או לא.

בהיבט הכמותי, התשובה אינה כה פשוטה. לרוב, מחקר UX בתחום הזה דורש פיתוח של כלים פרטיים, או לכל הפחות קסטומיזציה רבה לכלים קיימים. יש צורך ללמד מערכת מה נחשב “הצלחה” ומהו “כישלון”, ולזהות פריטים מסוימים בתהליך המעידים על pain points או אף נטישה. בהיעדר נתונים יכול להתקיים מצב שבו בעיני המשתמש התהליך לא הוכתר כהצלחה בכלל, אבל לפי המערכת – כן. בעוד שהמערכת מצאה את השיר שביקשת, ההנחיה היתה למצוא מתכון (קיימות כמה סיבות לכך שדבר כזה יקרה).

בקיצור, צפו לעבור על כמות נכבדה של תרשימי זרימה (yay :))

מקור: ShutterStock

ה-coming soon

אם החזון של התאגידים המובילים את התעשייה יתממש, בעתיד הקרוב יצופה מאיתנו להתנהל דרך בקשות קוליות – ללא מסך, דרך “הענן”, כשהכל מחובר: לוחות זמנים, מכשירי חשמל ביתיים, רכבים חכמים ורוטינות הדואגות לכל מחסורנו. איפה זה מותיר אותנו, אדריכלי חוויית השימוש? עלינו להתחיל לחשוב איפה (ואם בכלל) נשלב ממשק קולי (או רכיב קולי) במערכות שלנו, בהנחה וזה משרת את המטרה. אם הצלחתם להציע את המענה הנכון ברגע הנכון – יש לכם killer feature ביד.

גם אמאזון/אלקסה משפרות את האקוסיסטם שלהן תמידית, דרך תאימות רבה יותר, שיכלול הבינה המלאכותית ומתן מקום ל-Skills חיצוניים המרחיבים את יכולותיה של אלקסה והידע שלה. כל Skill כזה הוא מיקרוקוסמוס של חוויית משתמש, עטופה בממשק קולי מוכר וידוע.

אם הביצוע של כל האמור הוא flawless ולא דורש טיפול ותיקון ברגעים “הרי גורל” כמו בדוגמה שלמעלה – יש פה חוויית שימוש איכותית, חוצת פלטפורמות, המתרחשת ברקע, ניתנת לכימות ומדידה – וחשוב מכל: מסתכמת ביוזר מרוצה שקיבל תועלת ממשית, שחסכנו לו עוד פעולות ועוד מספר מסכים להתבונן עליהם. לשם כך התכנסנו, לא? :)

מקור: ShutterStock

 

הילה יונתן

חובבת גאדג'טים וטכנולוגיות מעניינות! נהנית במיוחד לבדוק אפליקציות חדשות, ולקבל השראה מהמקומות הפחות צפויים (מומלץ עם אייסקפה ליד). ביום-יום הילה יונתן היא חוקרת חווית משתמש (או: יואיקסרית!). הפלייליסט שלה בזמן עבודה - משנה אווירה :)

הגב

5 תגובות על "לדבר אל המכשירים: UX בממשק קולי"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
Some2
Guest

אני דווקא חושב שממשק קולי לא ייקח חלק כ”כ גדול בעתיד, ואנשים יעדיפו ללחוץ על כפתור מאשר להגיד משפט. אין ספק שהשימוש בקול יתרחב, אבל הוא לא העתיד. אנשים עדיין יעדיפו בדרך כלל מקלדת ועכבר, במקום להתחיל ולהגיד משפטים ברכבת למחשב או לסמארטפון.

גילוי נאות: לא קראתי את הכתבה. רק דפדפתי.

הילה יונתן
Guest
תודה על הכנות, וממליצה לקרוא את הכתבה :) קח בחשבון שמדובר בטכנולוגיה קיימת, ולכן הנחתת הבסיס מאפשרת להתייחס לממשקים מהסוג הזה כעובדה, ומשם לצאת ל-איך הם באים לידי ביטוי בהיבט של תכנון החוויה. זו גם הסיבה שלא נכנסתי לנושאים משיקים כמו הצדקה, פרטיות ויכולות – כל אלו מעניינים בפני עצמם. בכל זאת, בהתייחס למה שאמרת: אין פה נכון ולא נכון. כאשת UX, אני יכולה לומר ממקור ראשון שחלק מהאינטראקציות אינן מבוצעות בלחיצה, ואפילו פחות מזה – ממקלדת ועכבר (לכן, סמארטפונים, אפליקציות וכיוצא בזה). במסגרת התוכן התייחסתי לתסריטי יום-יום, ובנוחות שממשקים קולים מאפשרים. דווקא במקומות האלו, עם עוד קצת “אבולוציה” מאמינה… Read more »
אלמונימוס
Guest

שימוש קולי הוא בעייתי במרחב הציבורי. תחשבו על ההוא שמציץ לכם בטלפון מעבר לכתף, רק שעכשיו כל האוטובוס שומע מה קבעתם עם מי. זה יכול להיות מטרד לא קטן גם במקום העבודה, מה שמותיר רק חללים פרטיים כמו בית, רכב וכו׳ כפוטנציאל לשימוש בממשק קולי. ישנן דרכים לשגר קול בקו ישר כך שמי שמסביבך לא שומע, אבל עד שלא ימצא פתרון נייד ואינטואיטיבי שאנשים ירצו לאמץ אני לא רואה איך ממשק קולי ישתלט על חיינו.

הילה יונתן
Guest

היי אלמונימוס :)

גם אני לא בעד שיחות קולניות ברכבת, ומסכימה איתך שהנושא בתחילת דרכו ועוד יהיו אתגרים שידרשו התייחסות ופתרון. אבל, מההכרות שלי את היצירתיות הטכנולוגית היום, קשה להצר את הראיה רק בגלל סוג המרחב. במאמר אני מתייחסת להיבט המקצועי, ולא לדיון סביב הצורך, ההרגלים החברתיים או אפילו ה”כיצד”.

לגבי העתיד, רק אומר שאני בטוחה שמטרת השימוש עצמה יכולה להשתנות, כמו למשל שימושים שאינם חייבים להיות פרטיים, אלא בדיוק ההיפך – ציבוריים… כאשר אפילו לא מתייחסת עדיין לפתרונות טכנולוגיים או שינוי חברתי, שמתרחש באופן בלתי נמנע כשטכנולוגיה חדשה נכנסת לתמונה (עוד מהמצאת הנורה :)).

סופשבוע נעים!

שחר
Guest

אל תרכבי על הגל של הבטג וורדס. שנה הבאה יהיה משהו חדש שהוא הוא יהיה הא! בינתיים נשכח ממשקים מבוססי קול. אל תאמיני לי תקשיבי לקי נוט של יעקב נילסן על העניין

wpDiscuz

תגיות לכתבה: