אפליה מבוססת AI: על הצד הפחות חיובי של בינה מלאכותית
לאחרונה צפו כמה מקרים שהעלו לתודעה את נושא האפליה נגד מגזרים עקב שימוש ב-AI ובלמידת מכונה. נושא האפליה ב-AI זכה לוועדות רשמיות שדנו בו, גם כאן בישראל. שוחחנו עם כמה מומחים בתחום שהצביעו על חשוד מיידי בכל הקשור לאשמה באפליה
ג’נט היל רצתה להוציא כרטיס אשראי של אפל. היא ובעלה עברו את תהליך ההרשמה ביחד והצהירו על נתונים זהים לחלוטין לטובת מסגרת האשראי. כשהשניים אושרו לקבלת כרטיס האשראי – גילתה ג’נט כי בעלה קיבל מסגרת אשראי גבוהה פי 10 מזו שלה. השניים התלוננו, ומכיוון שבעלה הוא לא אחר מאשר סטיב ווזניאק, התלונה שלהם זכתה להתייחסות כמו שצריך – ובאפל תלו את האשם באלגוריתם ה-AI שמעורב בתהליך.
היל לא לבד; מטופלים אפרו-אמריקאים גילו שהם הופלו לרעה על ידי כלי AI ששימש את מערכת הבריאות האמריקאית ויותר מ-200 מיליון מטופלים. מחקר שפורסם במגזין Nature מצא עדויות להטיה גזעית באלגוריתם הנפוץ שהוביל לכך שמטופלים בעלי עור כהה מזוהים כחולים פחות מחולים בעלי עור בהיר, וכתוצאה מכך – הם גם מקבלים טיפול רפואי פחות טוב.
החשוד המיידי: הדאטה
בשנים האחרונות עלתה שוב ושוב לכותרות סוגיית האפליה בעקבות שימוש באלגוריתמים ובינה מלאכותית, מה שהוביל לפרסום של כללי אתיקה ב-AI על ידי האיחוד האירופי, וגם בישראל התכנסה ועדה בנושא. אורי אליאבייב, שישב בועדה, אמר בשיחה עם גיקטיים: “לצד חברות ענק ישנן לא מעט מדינות אשר החלו לחקור את הנושא ולהגדיר מדיניות שתפקידה למסגר בצורה טובה יותר את ההיבטים האתיים בתחום הבינה המלאכותית. מדינת ישראל הבינה גם היא שיש צורך לגבש עמדות בנושא, וכחלק מהוועדות הממשלתיות שקמו, קמה גם ‘הוועדה הלאומית בנושא אתיקה, רגולציה ובינה מלאכותית’ בראשות פרופ׳ קרין נהון, בה לקחתי חלק”.
אליאבייב, יועץ בתחום הבינה המלאכותית ומייסד קהילת Machine & Deep Learning Israel, התייחס לגורם המרכזי לאפליה בשימוש בבינה מלאכותית ואמר כי לדעתו ישנם כמה גורמים המובילים לחוסר הוגנות באלגוריתמים; אחד מהם הוא הדאטה המוזן למערכות עצמן. “אם ישנה הטייה מובנית במאגר הנתונים, גם האלגוריתם עצמו יהיה מוטה – כי הוא ינסה להבין את החוקיות הקיימת שנבנתה על ידי בני האדם”. נקודה בעייתית נוספת, לפי אליאבייב, היא היעדר אמצעים או כלים מוגדרים היטב לבדיקת הטיות באלגוריתמים. הוא אומר כי לעיתים קשה לערוך הדמיה למצב שבו יהיה ניתן לבחון כיצד האלגוריתמים יגיבו במקרים שונים.
סיבה משמעותית נוספת היא היעדר גיוון רחב של אנשים שעוסקים בתחום. “למשל, אם היו יותר נציגים של קבוצות שבדרך כלל מופלות, הם ידעו להרים את הדגל בזמן ויהיו יותר רגישים להשלכות של האלגוריתמים על הקבוצה אותה הם מייצגים בעקיפין”.
לשאלת הפחתת ממדי האפליה הנוצרת לעיתים עקב שימוש ב-AI אמר אליאבייב כי כיום ישנן חברות בינלאומיות שעובדות קשה כדי להשיג דאטה מגוון, אותו יש לשתף עם הקהילה המדעית כדי לעזור לכולם לפתח אלגוריתמים הוגנים יותר. “בנוגע ליכולת שלי להבין את מקרי הקצה, ישנם פיתוחים שמנסים לסייע למפתחים להבין בצורה טובה יותר את נקודות התורפה של המודלים שלהם, אך כלים כאלה עדיין לא נפוצים או ברמה מספיקת טובה”.
הוא מעלה גם את האפשרות של חינוך עובדים בארגון להגדלת ראש ולנסות לחשוב על דרכים אפשריות שבהן האלגוריתם יכול לפגוע בקבוצה מסוימת. אליאבייב מציין גם את האפשרות של הכשרת אנשים מקשת רחבה של אוכלוסיות כדי לשמור על גיוון העוסקים בתחום, לצד הנגשה של הטכנולוגיה לאנשים נוספים.
האם יכול לקרות מצב זהה בישראל – שבו בינה מלאכותית מפלה לרעה אנשים על בסיס שונה (יהודים/ערבים, גברים/נשים, אשכנזים/ספרדים וכו’)?
“מצב שכזה יכול להתרחש גם בישראל, מכיוון שאנחנו מתבססים על פיתוחים ועבודות גלובליות שנעשו בתעשייה. כמובן שאף מפתח ישראלי לא יעשה זאת בכוונה, אלא זה יהיה כשל של הדאטה שהוא יקבל. כך למשל, יכול להיות שמודל רפואי יציג תוצאות פחות מדויקות עבור אוכולסייה ישראלית מסוימת שאיננה פוקדת רבות את בתי החולים, או שאין תיעוד מספיק אודותיה וזאת רק כי אין מספיק דאטה רלוונטי עבורה”.
ישראל נחשבת למובילה עולמית בתחום ה-AI. האם זו גם אשמתם של המפתחים הישראליים?
“ישראל מובילה בתחום, אך כמובן שלא ניתן להאשים את הפתחים הישראליים בכך מאחר שזו בעיה כלל עולמית שחברות ותאגידים שונים מנסים להתמודד איתה. להיפך, במרבית המקרים המפתחים הישראלים מגלים עניין רב בנושא ודנים על כך לא מעט”.
“מצב דומה יכול לקרות בכל מדינה, גם בישראל”
ד”ר קירה רדינסקי, CTO “דיאגנוסטיקה רובוטיקה” ופרופ’ מבקר בטכניון, מסכימה עם חלק מהאבחנות של אליאבייב ואמרה כי אלגוריתמים של Machine Learning מחפשים תבניות בדאטה: “אם ישנה הטייה בדאטה – האלגוריתם ילמד את ההטייה”.
ד”ר רדינסקי אמרה עוד כי אפשר להתמודד עם הבעיה בכמה דרכים, בהן בחירת מידע מייצג ללמוד עליו (על מנת לוודא שאין הטייה בדאטה שעליו למדנו), ניסוי פרוספקטיבי שבו מנטרים את הביצועים של האלגוריתמים ומוודאים שהוא מתפקד בלי הטייה, או בניית אלגוריתמים שמציגים הסברים על התבניות שלמדו כדי שמומחה יוכל לזהות bias בזמן אמת.
בנוגע להיתכנות של מצב שבו נוצרת אפליה ב-AI בישראל אמרה ד”ר רדינסקי כי מצב דומה יכול להתקיים בכל מדינה. ״תתי-אוכלוסיות שונות בישראל מדווחות על כאב בצורה שונה מבחינה תרבותית. תרבות אחת נוטה לא לדווח על כאב כלל גם כשהכאב חמור. מצב כזה יכול להחמיר את הטריאז’ (תעדוף הטיפול בחולים בהתבסס על חומרת מצבם, א.א.) עבור אותן אוכלוסיות”.
בנוגע למקומה של ישראל בתעשיית ה-AI ושל מפתחים ישראלים בתחום כשזה מגיע לאפליה, אמרה ד”ר רדינסקי כי אינה בטוחה שאנחנו עוד בין המובילים בבינה מלאכותית כפי שישראל מובילה בתחום הסייבר. היא הדגישה כי ישנו מחסור חמור במדעני נתונים עם רקע אקדמי מתאים וכי הבעיה נובעת, בין היתר, בשל מחסור של חברי סגל בתחום באוניברסיטאות.
“הצעד הראשון להתמודד עם הבעיה – להיות מודע לה”
טל שוסטר, דוקטורנט ישראלי ב-MIT שהצליח לפתח כלי AI שיודע לחזות סרטן 5 שנים מראש מבלי להפלות בין נשים בעלות צבע עור שונה, התייחס גם הוא לסוגיה. בנוגע לגורם המרכזי שעלול להוביל למקרים של אפליה בשימוש בבינה מלאכותית או למידת מכונה אמר כי אפליה בפיתוח תרופות או טכנולוגיות הוא עניין מטריד, אך חשוב להבין שהיא התחילה הרבה לפני השימוש בלמידת מכונה. “תרופות רבות במשך שנים פותחו ונבדקו על בסיס גברים לבנים בשנות העשרים אך הופצו לאוכלוסיות אחרות. כמו כן, לדוגמה, הסיכוי לפציעה חמורה של נשים מתאונות דרכים גבוה יותר משל גברים בגלל שמכוניות ואמצעי הבטיחות פותחו עבור מבנה גוף של גברים”.
שוסטר הוסיף ואמר כי מודלים של למידת מכונה לומדים על בסיס הדוגמאות שאנו נותנים להם. הגורם המרכזי להטיות הוא, כמו במחקרים היסטוריים, שהמידע והדגימות שמתבססים עליהם לפעמים לא מייצגים את כל האוכלוסיות ולפעמים בונים את המודל בצורה שהוא לומד דברים מאוד ספציפיים לאוכלוסיה אחת, אך לא מוודאים שההסקות שהוא עושה לא נכונות עבור אוכלוסיות אחרות”.
מה אפשר לעשות כדי להפחית את ממדי התופעה? האם אפשר בכלל לעשות משהו?
“אפשר בהחלט להתמודד עם התופעה והצעד הראשון, והכי חשוב, הוא להיות מודע לה. חוקר או מפתח שבונה מודל למידת מכונה שצפוי להיות בשימוש ע”י אוכלוסיות שונות צריך למדוד את הביצועים של המודל עבור כל אחת מאוכלוסיות היעד. אם קיימת אוכלוסיה שהתוצאות של המודל הן לא על פי המצופה לאוכלוסיה מסוימת, יש דרכים להתמודד עם כך. דרך אחת היא לאסוף דוגמאות לימוד נוספות שמייצגות את האוכלוסייה הרלוונטית. דרך אחרת היא להכריח את המודל, באמצעות כלים שונים של למידת מכונה, ללמוד רק עפ”י תכונות כלליות מספיק שיהיו נכונות לכלל האוכלוסיות”.
“במחקר שלנו לבניית מודל סיכון לסרטן השד השתמשנו בדגימות מאוכלוסיות מגוונות בהיבטי גיל, גנטיקה, היסטוריה משפחתית וגזע ובדקנו את הביצועים עבור כל חתך אוכולסייה בנפרד. מודל הסיכון המקובל שהיה קיים לפני כן היה מודל סטטיסטי שפותח בעיקר על בסיס נשים לבנות, ועל כן ביצועיו לאוכלוסיות שונות היו מופחתים משמעותית. לעומת זאת, מודל הסיכון שאנחנו פתחנו נעזר בסריקה האישית של כל נבדק או נבדקת ומנבא סיכון אישי. התוצאות של המודל שלנו היו זהות עבור נשים ממוצא שונה”.
לגבי האפשרות שאנשים יופלו לרעה בעקבות שימוש בבינה מלאכותית או למידת מכונה אמר שוסטר כי אינו מכיר מספיק את האמצעים הרגולטוריים במדינת ישראל כדי לענות האם גורמים ממשלתיים שמשתמשים בבינה מלאכותית מבצעים בקרה למניעת אפליה.
אפליה ב-AI היא משהו שקיים נכון להיום ונראה כי בסופו של דבר יכול להיפתר, כך לפחות לפי המומחים שאיתם שוחחנו בנושא. נראה כי כל השלושה תמימי דעים שבסופו של דבר הבעיה מתחילה בדאטה – ה-Bias המובנה במאגרי המידע שאיתם עובדים בפיתוחי AI ולמידת מכונה לרוב הוא זה שמוביל לאפליה. לכן, נראה כי על ידי יצירת מאגר מידע מקיף ככל האפשר ניתן יהיה להימנע ממקרים מסוג זה.
הגב
23 תגובות על "אפליה מבוססת AI: על הצד הפחות חיובי של בינה מלאכותית"
* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.
מה שמדובר פה זה לא על אפלייה… אלה על “אפלייה מתקנת….” שבה בעצם מפלים קהילות נורמליות בשביל מיעוטים כאלה ואחרים
המכונה לומד מה שנותנים לה ללמוד… זה שיש אנשים שלא נכנסים לספקטרום ומצפים שזה יעבוד גם עליהם, פה הבעיה..
אין שום בעיה במכונה
ואם המכונה אומרת שיש להעניק פחות אשראי לנשים לעומת גברים… מי אנחנו שנתווכח… כל ההוכחות מראות שזה נכון
עקרון השוויון הוא מעוות מיסודו בגלל שכולנו שונים אחד מהשני ובמיוחד אחד מהשנייה.
בקיצור…. תהיו בצד הנכון של המשוואה + תפסיקו להתבכיין
איך לכתוב יפה ולהיות בעצם גזען, איחס.
אתה נותן יותר מידי קרדיט לדאטא. בדרך איסוף דאטא תמיד יהיו הטיות, ואי אפשר לסמוך עליו לייצג נכונה את כל האוכלוסיה. כך שכל עוד האלגוריתמים שלנו לא מספקים הסברים איך הם הגיעו למסקנה הם לא מספיק טובים. זה הבעיה הגדולה ביותר בעידן של הדיפ לרנינג שזה את ה explainability לטובת ביצועים.
ניסוח נורא, אבל נשים בצד ונתיחס לעניין, להתיחס לכלל הקבוצות מניב תמיד תוצאה טובה יותר, כמו בדוגמה שניתנה על המחקר בנושא סרטן, יחס לאוכלוסיות רבות ושונות יותר גורם לאיתור פקטורים שלא התיחסו אליהם לפני כי במרבית המקרים ה”נורמלים” (כמו שהגדרת אותם) הפרמטרים האלה היו דומים, וגילוי זה הוביל לטיפול טוב יותר לכולם.
ואכן, המכונה לומדת מה שנותנים ללמוד, ואם היא תלמד מאנשים כמוך כמובן שההפליה בנתונים רק תגדל.
אין שום הוכחות ושום נעליים. יש חיזוי.
אתה לא יכול להגיד לאישה שהיא לא תוכל להחזיר את ההלוואה שלה ולטעון שההוכחה שלך היא הרבה נשים אחרות.
ההוכחה היא רק אם אותה אישה ספציפית אכן לא החזירה את ההלוואה. אחרת אתה סתם מכליל וזה שורש הבעיה.
מסכים שזה שורש הבעיה, אבל ככה האלגוריתם עובד…למידת המכונה פה לומדת ע”י דוגמאות – ככה שאם הרבה גברים מצפון תל אביב לא מחזירים הלוואות בזמן, ואתה במקרה מחזיר הלוואות חודש קודם, האלגוריתם יתחשב גם בזה שאתה גר בצפון ת”א.
אתה לא רוצה שדבר כזה יקרה? אל תשתמש בML ותכתוב אלגוריתם חיזוי בדרך אחרת. או שאל תכניס לML נתונים שאתה חושב שיכולים לגרום להפליה.
או שאולי תנסה לבנות אלגוריתם שיבין מה ההבדל בין גברים מצפון ת”א שלא מחזירים הלוואות לכאלה מצפון ת”א שכן מחזירים
וידע להחליט לאיזה קבוצה אתה שייך
אם אין לך מספיק נתונים כדי להסיק מסקנות טובות מספיק אז כדאי שתשפר את הנתונים או שאל תשתמש בבינה מלאכותית
דמיין לך פקיד שלא נותן הלוואה כי אתה ממוצא אתיופי
עכשיו דמיין תוכנת AI שלא נותנת הלוואה כי אתה ממוצא אתיופי
אין הבדל- שניהם גזענים…ובשתי המקרים האתיופים יפגעו…
אתה בוחר בדרך הקלה.
הפיתרון הוא להבין לעומק מה הדאטה שאתה מאכיל את המכונה שלך. ובמקרה של אפל למדנו שזה לא מספיק רק לא לשים מגדר כפרמטר אלא שגם הפרמטרים האחרים מלוכלכים מהטיות שמראש בחרנו לא להכניס.
כשכל החלטות המכונה מבוססות על הדאטה – צריך לחפור טוב טוב ולהבין מה הדאטה הזה מייצג אחרת כל המודל שלך בכלל לא שמיש.
35 שנות תכנות לימדו אותי בדרך הקשה שהדרך הקלה יותר קלה מהדרך הקשה (-:
סחתיין על הניסוח הבהיר, נתת לי קצת חומר למחשבה…
רק לא כל כך הבנתי איזה שיטה יש להבין “מה הדאטה הזה מייצג” חוץ מלדחוף אותו לאיזה רשת מהונדסת היטב
מעניין מאוד…נראה לי שהיות ולמודל מוזנים גם הנתונים על מי החזיר את ההלואה בזמן פונקצית החיזוי אמורה להיות נאמנה למציאות מה שלא ברור באמת זה הנושא של missing data על קבוצות שונות שלא קיבלו הלוואה ולכן אין נתונים לגביהם
בכל מקרה גרמת לי לחשוב על הבעיתיות של אלגוריתם שגם חוזה תוצאות וגם יוצר אותם בשטח- בהתחלה זה עובד יופי אבל לאורך זמן זה תמיד מוביל לפונקציה כאוטית( ע”ע שוק המניות )
הכותרת של התגובה היתה אמורה להיות
“going deeper”
כל הזכויות שמורות…
אבל אין לי ספק ששילוב של לוגיקה וDEEP-LEARNING ז”א רשתות שמשתמשות בלוגיקה זה השלב הבא…
גם כושים יעדיפו לתת הלוואה ללבנים מבחינת סיכויי החזר טהורים
…ויעדיפו בלונדיניות
אתה סתם אדם טיפש
אני אישית אעדיף לתת הלוואה לאדם עם עבודה והיסטורית אשראי טובה, אבל אם אתה רוצה להמר שיהיה לך בהצלחה.
ואני אישית מעדיף ברונטיות (אבל זה בטח לא יהיה הקרטריון שלי למתן הלוואה).
למי שלא הבין זה היה בציניות
אבל זה עבד :)
אבל הסטטיסטיקה כן מראה שאדם שחור גם יעדיף לתת הלוואה לאדם לבן (לא מקרה פרטי, כשמסתכלים על הסטטיקטיקה)
וכן, שחורים מעדיפים לבנות (שוב, סטטיסטית, ומעדיפים – מלשון העדפה ולא המצב בפועל שנגזר מהיצע וביקוש)
מתן הלוואה היום נעשה בהתחשב בהכנסה שלך ובהיסטורית האשראי שלך לאומת לקוחות דומים בפרמטרים אלו,
אין פרמטר שאומר צבע או גזע או כל דבר כזה או אחר שאתה מתאר, כך שהיום ההחלטה מתקבלת על סמך נתונים מספריים לאומת הזמן שהתקבלו על ידי אנשים ונלקחו בחשבון פרמטרים גזעניים, כך שכל מה שאתה אומר מנותק מהמציעות והיחיד שמתעניין בצבע העור פה זה אתה.
רק תאמר לי באיזה בנק אתה עובד..
אני בטח לא אגיע לשם כדי לקחת הלוואה, ולא בגלל “עניין צבע” כזה או אחר.
פשוט בגלל שהבנת הנקרא שלך לא משהו.
כתבה מצויינת, רק שהכותב יצא עם מסכנה שגוייה, שוב ושוב מצוטתים מומחים שאומרים “הבעיה במידע”, הבעיה כרגיל באנשים, כמובן שהאלגוריתמים טעונים שיפור, אבל כל עוד אנחנו ממשיכים ליצר מידע גזעני זה לא יגמר,
הדוגמה הכי טובה לזאת היא המקרה עם האלגוריתם של גוגל, שראה שבמקרים רבים המילה “קוף” נאמרת בהקשר לאפרו-אמריקאי וכשאנשים חיפשו “אפרו-אמריקאי” קיבלו בין היתר תמונות של קופים, אבל כמובן שלא האשימו את המקורות שיצרו את המידע והשוו את האפרו-אמריקאים לקופים, האשימו את גוגל על יצירת אלגוריתם גזעני,
בשביל שהאלגוריתם יעבוד כמו שצריך יש לנתח את המידע שהוא מקבל ולתת לו מידע רב ככל הניתן.
הבעיה היא באלגוריתם, למידת מכונה, נכון להיום, מדייק ב 95% במקרה הטוב, וככל שהפרט המסויים יותר שונה, או שיש יותר רעש ככה גם אחוז השגיאה גדל.
בנוסף, יש הרבה דוגמאות לאלגוריתמים שנכשלים לגמרי כשעושים שינוי קטן בתוכן, שינוי שלא היה מבלבל אדם, לדוגמא, לשנות מספר פיקסלים בודדים בתמונה