גוגל: מתלהבים ממחולל התמונות DALL-E? קבלו את זה

גוגל טוענת כי המודל החדש שלה – Imagen – כבר מצליח לעקוף בסיבוב את DALL-E 2 שזכה לפופולריות בשבועיים האחרונים

מקור: Google Research

למרות שהוא הוצג כבר בתחילת אפריל, בשבועיים האחרונים קשה לפספס בכל פינה ברשת התלהבות מחודשת מ-DALL-E 2, מודל יצירת התמונות של OpenAI, שהופך טקסטים לתמונות או ציורים מאוד מרשימים בזכות היכולת להסתמך על מודל השפה האדיר – GPT-3. עכשיו גוגל רואה את ההייפ, וממהרת לעשות שואו-אוף גם עם המודלים שלה.

תנו לו טקסט, הוא ייתן לכם תמונה

תכירו את Imagen (לא כמו הקאבר ההוא של גל גדות), מודל חדש מבית חטיבת המחקר של גוגל שלוקח קלט טקסט והופך אותו לציורים או תמונות מאוד ריאליסטיים – העומדים גם בבקשות ההזויות ביותר שתבקשו מהמודל. אם זה נשמע לכם מוכר, אז כן – זה בדיוק מה ש-DALL-E 2 עושה.

ברמה הטכנית מדובר במודל דיפוזיה – מודל הלוקח את הטקסט שהכנסנו אליו בתור קלט, מתחיל עם תמונה של "רעש" וממנה הוא מתחיל לנקות את הרעש עד לכדי הגעה לתמונה העומדת (ככל האפשר) בתנאים הכתובים שהצבנו בפני המודל.

Imagen מייצר תחילה תמונה קטנה – ברזולוציה של 64 על 64 פיקסלים – ומשם מעביר אותה תהליך של "סופר רזולוציה" שבמהלכו נוספים עוד ועוד פרטים כדי להתאים את התמונה לטקסט. לאחר מכן, המודל מעביר את התמונה תהליך "סופר רזולוציה" שני על התמונה – ומגדיל אותה עד לרזולוציה של 1024×1024.

מקור: Google Research

כך המודל מתחיל, קצת כמו אמן אנושי, עם טיוטה מסוימת של תמונה או איור ולאט לאט מוסיף עוד ועוד פרטים לתמונה. האדם עושה את זה ידנית והמודל עושה את זה בשתי הפעימות של החלת ה"סופר רזולוציה" על התמונה והעלאת החדות שלה מ-64×64 ל-256×256 ועד לרזולוציה הסופית של 1024×1024.

על פי אנשי חטיבת המחקר של גוגל, חלק חשוב במודל החדש שיצרו הוא ההישענות שלו על מודלי טקסט (וספציפית מודל השפה T5-XXL מבית גוגל) – כדי לבצע את קידוד הקלט הכתוב. על פי החוקרים ההישענות הזו קריטית כדי לשפר את התוצאה הסופית שמייצר Imagen – כי (לפחות לדבריהם) עדיף שהמודל יבין יותר טוב את הטקסט שהזנו וייצר תמונה אולי פחות חדה הנאמנה לטקסט מאשר תמונה ב-QHD של משהו שלא עונה בדיוק על הבקשה שלנו.

מנצחים את המתחרה הגדול

אחת הדוגמאות שמציגים החוקרים במאמר שלהם מתייחסת למתחרה הגדול מבית OpenAI, מודל DALL-E 2 שהבעיר פה את הרשת. במאמר מציגים החוקרים שלו דוגמאות שבהן Imagen הצליח לענות על הבקשה בצורה טובה יותר – ובעיקר הצליח לא להתבלבל – לעומת DALL-E 2. בין הדוגמאות שבלבלו את המודל של OpenAI אבל לא את של גוגל ניתן למצוא את הבקשה לתמונה של "ספר צהוב ואגרטל אדום" או "תפוח שחור ותיק ירוק" – כאשר בשני המקרים המודל של גוגל הצליח לענות על הבקשות בזמן ש-DALL-E 2 נפל בפח והציג את האובייקטים בצבעים הפוכים.

מקרה מעניין נוסף שהציגו החוקרים הוא של הבקשה לתמונה של "פנדה שעושה אמנות לאטה" (הציורים שעושים הבריסטות בקצף הקפה שלכם). במקרה הזה, DALL-E 2 הציג אך ורק תמונות של "אמנות לאטה" בצורת פנדה, בזמן שברוב המקרים אימג'ן של גוגל הצליח (לפחות ברוב המקרים) לייצר תמונה של פנדה שמכין "אמנות לאטה".

מקור: Google Research

אנשי חטיבת המחקר של גוגל מציינים כי במסגרת המחקר הם גם נתנו לגורמים אנושיים להעריך את התוצאות שמייצר אימג'ן וכי המודל "עקף משמעותית" את המתחרים – כולל את DALL-E 2. עם זאת, כמובן שאת הכל צריך לקחת בעירבון מוגבל – כמו גם את הדוגמאות הדי מוגבלות שהציגה גוגל במאמר שלה (ארבע דוגמאות בלבד לכל ניסוי שהריצה על המודל שלה מול DALL-E 2).

חשוב לציין כי בניגוד למתחרה הגדול מבית OpenAI, הפתוח כעת בבטא למשתמשים מסוימים, המודל החדש של גוגל הוא ניסויי בלבד והוצג רק דרך המאמר והאתר שהעלתה חטיבת המחקר של הענקית האמריקאית לאוויר. סיבה אחת לכך היא העובדה שגוגל החליטה להשתמש במאגרי מידע שלא עברו סינון כלשהו – בניגוד לדאטה שעליו רץ DALL-E 2 – וייתכן שאם הוא ייפתח לשימוש הרחב, בקשות ליצירת תכנים לא ראויים על ידי המודל יתקבלו בברכה.

החוקרים כותבים כי "למרות שהגישה הזו (שימוש במאגרי מידע של עברו סינון, א.א.) איפשרה חידושים אלגוריתמיים משמעותיים בשנים האחרונות, מאגרי מידע מסוג זה יכולים להציג סטריאוטיפים חברתיים, דעות דורסניות או פוגעניות או יצירת ייצוגים פוגעניים עבור קבוצות מוחלשות".

עוד סיפורים כאלו מחכים לכם עכשיו עוד סיפורים כאלו מחכים לכם עכשיו בערוץ העדכונים הרשמי של גיקטיים

אושרי אלקסלסי

Your Friendly Neighborhood Geek. יש לכם סיפור טכנולוגי? דברו איתי: [email protected]

הגב

11 תגובות על "גוגל: מתלהבים ממחולל התמונות DALL-E? קבלו את זה"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
איציק
Guest

גיק מנומש חובש אוזניות עשויות עץ מהגוני בצבע יין עם קשת זכוכית ולדים בוהקים וברקע חלל משרדי בצבעים עזים של כחול צהוב ואדום ובפינה בלון הליום בצבעי ניאון עם הכיתוב GeeksAreLazies

עכשיו נראה למי יש מודל מלהיב יותר

ASD
Guest

היתרון של גוגל הוא ביכולת שלהם לזרוק את התמונות האלו בחיפוש תמונות, לבדוק מדדי שימוש של משתמשים מול התמונות האמיתיות והתמונות המזוייפות וככה לאמן את המודל בחזרה.

אז נניח יש מליון אנשים בכל יום שמחפשים תמונה של דב פנדה – לחצי מהם ניתן דב פנדה אמיתי ולחצי ניתן מזוייף ונאכיל את המודל בכמות הקליקים וההורדות (בכרום). הוא ימשיך לייצר תמונות של פנדות עד שיקבל הוכחה שרוב המשתמשים בסדר עם מה שהוא מייצר וימשיך הלאה לקטגוריות חדשות.

עם כמות המשתמשים של גוגל, המודל שלהם יעיף את openAI בקלות תוך שנים בודדות.

פסיכולוג בשקל-90
Guest
פסיכולוג בשקל-90

מעניין מה התוצאה של בבון ישראלי מצוי תהיה…
חבל שאי אפשר להתנסות עם זה.. להזין לו טקסט והוא יתן לנו תוצאה של מה הוא המציא/מצא

ASD
Guest

כשהדבר הזה יפתח לציבור אתה הולך לראות כל כך הרבה אוכלוסיות שיפגעו מהשימוש בו. זו אחת הסיבות שהסבירות שהוא פשוט ייפתח לציבור היא נמוכה מאוד. היח״צ השלילי שגוגל יחטפו יהיה עצום

אייל
Guest

וואו קראת את הפסקה האחרונה. עצום.
היח"צ של גוגל הוא אוכלוסיה מוחלשת?

האוכלוסיות המוחלשות הן מוחלשות ממילא.
הבעיה היא האוכלוסיות המבוצרות, ועליהם חושבים להגן.
יש יותר בבונים מצויים מאשר גיקים. גם הם יוכלו לחפש עליכם.
מעניין איזו תמונה תצא אם נחפש "צפון תל אביב חורף 2040"

איש
Guest

במוקדם או במאוחר תיווצר גרסאת קוד פתוח של משהו כזה ואף אחד לא יוכל לעצור את זה

nope@nope.com
Guest

אה, כמו OpenAI?

איגור
Guest

OpenAI ממש לא אופן סורס.

שלום יעקובי
Guest

החברה הזו (OpenAL)היא מלכ"ר כך שאין סיכוי שהם יוציאו לעולם משהוא שיפגע באוכלוסיות שונות
המטרה שלהם היא הפוכה

אביחי
Guest

זה קשור לדאטה שנאסף ולא לאלגוריתם,
תחשוב שבשביל לייצג עו"ד החברה אספו בעיקר תמונות של של גברים לבנים בגיל העמידה, מכיוון שמרבית העו"ד בארה"ב הם מהאוכלוסייה הזו – כאשר נכניס לאלגוריתם – עו"ד על פיל – נקבל במרבית המקרים תמונה של גבר לבן בגיל העמידה על פיל.

איש
Guest

יש לי איך להשתמש בהם כבר בתור סתם אדם או שכרגע זה לא פתוח לכל הציבור?

wpDiscuz

תגיות לכתבה: