גוגל: מתלהבים ממחולל התמונות DALL-E? קבלו את זה
גוגל טוענת כי המודל החדש שלה – Imagen – כבר מצליח לעקוף בסיבוב את DALL-E 2 שזכה לפופולריות בשבועיים האחרונים
למרות שהוא הוצג כבר בתחילת אפריל, בשבועיים האחרונים קשה לפספס בכל פינה ברשת התלהבות מחודשת מ-DALL-E 2, מודל יצירת התמונות של OpenAI, שהופך טקסטים לתמונות או ציורים מאוד מרשימים בזכות היכולת להסתמך על מודל השפה האדיר – GPT-3. עכשיו גוגל רואה את ההייפ, וממהרת לעשות שואו-אוף גם עם המודלים שלה.
תנו לו טקסט, הוא ייתן לכם תמונה
תכירו את Imagen (לא כמו הקאבר ההוא של גל גדות), מודל חדש מבית חטיבת המחקר של גוגל שלוקח קלט טקסט והופך אותו לציורים או תמונות מאוד ריאליסטיים – העומדים גם בבקשות ההזויות ביותר שתבקשו מהמודל. אם זה נשמע לכם מוכר, אז כן – זה בדיוק מה ש-DALL-E 2 עושה.
ברמה הטכנית מדובר במודל דיפוזיה – מודל הלוקח את הטקסט שהכנסנו אליו בתור קלט, מתחיל עם תמונה של "רעש" וממנה הוא מתחיל לנקות את הרעש עד לכדי הגעה לתמונה העומדת (ככל האפשר) בתנאים הכתובים שהצבנו בפני המודל.
Imagen מייצר תחילה תמונה קטנה – ברזולוציה של 64 על 64 פיקסלים – ומשם מעביר אותה תהליך של "סופר רזולוציה" שבמהלכו נוספים עוד ועוד פרטים כדי להתאים את התמונה לטקסט. לאחר מכן, המודל מעביר את התמונה תהליך "סופר רזולוציה" שני על התמונה – ומגדיל אותה עד לרזולוציה של 1024×1024.
כך המודל מתחיל, קצת כמו אמן אנושי, עם טיוטה מסוימת של תמונה או איור ולאט לאט מוסיף עוד ועוד פרטים לתמונה. האדם עושה את זה ידנית והמודל עושה את זה בשתי הפעימות של החלת ה"סופר רזולוציה" על התמונה והעלאת החדות שלה מ-64×64 ל-256×256 ועד לרזולוציה הסופית של 1024×1024.
על פי אנשי חטיבת המחקר של גוגל, חלק חשוב במודל החדש שיצרו הוא ההישענות שלו על מודלי טקסט (וספציפית מודל השפה T5-XXL מבית גוגל) – כדי לבצע את קידוד הקלט הכתוב. על פי החוקרים ההישענות הזו קריטית כדי לשפר את התוצאה הסופית שמייצר Imagen – כי (לפחות לדבריהם) עדיף שהמודל יבין יותר טוב את הטקסט שהזנו וייצר תמונה אולי פחות חדה הנאמנה לטקסט מאשר תמונה ב-QHD של משהו שלא עונה בדיוק על הבקשה שלנו.
מנצחים את המתחרה הגדול
אחת הדוגמאות שמציגים החוקרים במאמר שלהם מתייחסת למתחרה הגדול מבית OpenAI, מודל DALL-E 2 שהבעיר פה את הרשת. במאמר מציגים החוקרים שלו דוגמאות שבהן Imagen הצליח לענות על הבקשה בצורה טובה יותר – ובעיקר הצליח לא להתבלבל – לעומת DALL-E 2. בין הדוגמאות שבלבלו את המודל של OpenAI אבל לא את של גוגל ניתן למצוא את הבקשה לתמונה של "ספר צהוב ואגרטל אדום" או "תפוח שחור ותיק ירוק" – כאשר בשני המקרים המודל של גוגל הצליח לענות על הבקשות בזמן ש-DALL-E 2 נפל בפח והציג את האובייקטים בצבעים הפוכים.
מקרה מעניין נוסף שהציגו החוקרים הוא של הבקשה לתמונה של "פנדה שעושה אמנות לאטה" (הציורים שעושים הבריסטות בקצף הקפה שלכם). במקרה הזה, DALL-E 2 הציג אך ורק תמונות של "אמנות לאטה" בצורת פנדה, בזמן שברוב המקרים אימג'ן של גוגל הצליח (לפחות ברוב המקרים) לייצר תמונה של פנדה שמכין "אמנות לאטה".
אנשי חטיבת המחקר של גוגל מציינים כי במסגרת המחקר הם גם נתנו לגורמים אנושיים להעריך את התוצאות שמייצר אימג'ן וכי המודל "עקף משמעותית" את המתחרים – כולל את DALL-E 2. עם זאת, כמובן שאת הכל צריך לקחת בעירבון מוגבל – כמו גם את הדוגמאות הדי מוגבלות שהציגה גוגל במאמר שלה (ארבע דוגמאות בלבד לכל ניסוי שהריצה על המודל שלה מול DALL-E 2).
חשוב לציין כי בניגוד למתחרה הגדול מבית OpenAI, הפתוח כעת בבטא למשתמשים מסוימים, המודל החדש של גוגל הוא ניסויי בלבד והוצג רק דרך המאמר והאתר שהעלתה חטיבת המחקר של הענקית האמריקאית לאוויר. סיבה אחת לכך היא העובדה שגוגל החליטה להשתמש במאגרי מידע שלא עברו סינון כלשהו – בניגוד לדאטה שעליו רץ DALL-E 2 – וייתכן שאם הוא ייפתח לשימוש הרחב, בקשות ליצירת תכנים לא ראויים על ידי המודל יתקבלו בברכה.
החוקרים כותבים כי "למרות שהגישה הזו (שימוש במאגרי מידע של עברו סינון, א.א.) איפשרה חידושים אלגוריתמיים משמעותיים בשנים האחרונות, מאגרי מידע מסוג זה יכולים להציג סטריאוטיפים חברתיים, דעות דורסניות או פוגעניות או יצירת ייצוגים פוגעניים עבור קבוצות מוחלשות".
הגב
11 תגובות על "גוגל: מתלהבים ממחולל התמונות DALL-E? קבלו את זה"
* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.
גיק מנומש חובש אוזניות עשויות עץ מהגוני בצבע יין עם קשת זכוכית ולדים בוהקים וברקע חלל משרדי בצבעים עזים של כחול צהוב ואדום ובפינה בלון הליום בצבעי ניאון עם הכיתוב GeeksAreLazies
עכשיו נראה למי יש מודל מלהיב יותר
היתרון של גוגל הוא ביכולת שלהם לזרוק את התמונות האלו בחיפוש תמונות, לבדוק מדדי שימוש של משתמשים מול התמונות האמיתיות והתמונות המזוייפות וככה לאמן את המודל בחזרה.
אז נניח יש מליון אנשים בכל יום שמחפשים תמונה של דב פנדה – לחצי מהם ניתן דב פנדה אמיתי ולחצי ניתן מזוייף ונאכיל את המודל בכמות הקליקים וההורדות (בכרום). הוא ימשיך לייצר תמונות של פנדות עד שיקבל הוכחה שרוב המשתמשים בסדר עם מה שהוא מייצר וימשיך הלאה לקטגוריות חדשות.
עם כמות המשתמשים של גוגל, המודל שלהם יעיף את openAI בקלות תוך שנים בודדות.
מעניין מה התוצאה של בבון ישראלי מצוי תהיה…
חבל שאי אפשר להתנסות עם זה.. להזין לו טקסט והוא יתן לנו תוצאה של מה הוא המציא/מצא
כשהדבר הזה יפתח לציבור אתה הולך לראות כל כך הרבה אוכלוסיות שיפגעו מהשימוש בו. זו אחת הסיבות שהסבירות שהוא פשוט ייפתח לציבור היא נמוכה מאוד. היח״צ השלילי שגוגל יחטפו יהיה עצום
וואו קראת את הפסקה האחרונה. עצום.
היח"צ של גוגל הוא אוכלוסיה מוחלשת?
האוכלוסיות המוחלשות הן מוחלשות ממילא.
הבעיה היא האוכלוסיות המבוצרות, ועליהם חושבים להגן.
יש יותר בבונים מצויים מאשר גיקים. גם הם יוכלו לחפש עליכם.
מעניין איזו תמונה תצא אם נחפש "צפון תל אביב חורף 2040"
במוקדם או במאוחר תיווצר גרסאת קוד פתוח של משהו כזה ואף אחד לא יוכל לעצור את זה
אה, כמו OpenAI?
OpenAI ממש לא אופן סורס.
החברה הזו (OpenAL)היא מלכ"ר כך שאין סיכוי שהם יוציאו לעולם משהוא שיפגע באוכלוסיות שונות
המטרה שלהם היא הפוכה
זה קשור לדאטה שנאסף ולא לאלגוריתם,
תחשוב שבשביל לייצג עו"ד החברה אספו בעיקר תמונות של של גברים לבנים בגיל העמידה, מכיוון שמרבית העו"ד בארה"ב הם מהאוכלוסייה הזו – כאשר נכניס לאלגוריתם – עו"ד על פיל – נקבל במרבית המקרים תמונה של גבר לבן בגיל העמידה על פיל.
יש לי איך להשתמש בהם כבר בתור סתם אדם או שכרגע זה לא פתוח לכל הציבור?