חוקר יצר בוט כדי לבדוק מה קורה כשה-AI פוגש את אחת מהפינות החשוכות של האינטרנט

חוקר ויוטיובר תיעד כיצד לקח מאגר מידע מ-4chan, אחת הפינות החשוכות של הרשת, והפך אותה לבוט מצוין על ידי שימוש במודל שפה בקוד פתוח

צילום מסך

מודלי שפה כמו GPT-3 של OpenAI או Jurrasic-X של AI21 Labs הישראלית אומנו על מאגרי מידע ענקיים שעברו סינון קפדני והם כוללים מאות מיליארדי פרמטרים. אבל מה קורה כשחוקר AI לוקח מודל שפה בקוד פתוח ומזין לתוכו יותר משלוש שנים של תוכן מאחת מהפינות הכי חשוכות של הרשת?

GPT-3, תכיר את בן הדוד הקיצוני שלך

חוקר הבינה המלאכותית והיוטיובר יאניק קילכר העלה סרטון ובו הוא מפרט כיצד לקח מאגר מידע פתוח שהועלה לרשת, שכולו מורכב מפוסטים שפורסמו לאורך שלוש וחצי שנים ב-/pol/ – עמוד הדיונים של 4chan עבור עמדות שאינן פוליטיקלי קורקט, כמו תיאוריות קונספירציה שונות, עמדות הומפוביות ועמדות קיצוניות בנושאים שונים. זהו הבורד הפופולרי ביותר ומדי יום מועלים בו יותר מ-100 אלף פוסטים שונים.

קילכר מספר כי נתקל במאגר המידע והחליט לנסות ולבחון מה תהיה התוצאה אם יזין למודל שפה את אותו מאגר ואז להפוך אותו לבוט. לאחר מכן מכן תכנן החוקר לשחרר את הבוט שיצר לחופשי אל מול מי שנמצאים בלב ה"מוח" שלו ומי שהיו ההשראה ליצירתו – המשתמשים ב-4chan עצמם.

הוא ניגש לעבודה עם מאגר המידע שלו, שכלל 3.3 מיליון דיונים ב-/pol/ שבהם פורסמו יותר מ-134 מיליון תגובות שונות מהשנים 2016 עד 2019 והריץ אותו בתוך מודל שפה בקוד פתוח בשם GPT-J. הוא מדגיש כי לא אימן המודל – הכולל 6 מיליארד פרמטרים – אלא ביצע תהליך שנקרא Fine Tuning ובו המודל מעבד את המידע החדש (במקרה הזה, מאגר 4chan) ומבצע את ההתאמות כדי לייצר פלט בהתאם לאותו הדאטה.

אחרי שבועיים שבהם ביצע את ההתאמה של המודל בקוד פתוח על סמך הדאטה-סט של משתמשי 4chan, הפרנקשטיין הגזעני שלו היה מוכן. "בחנתי אותו והתרשמתי מאוד. המודל היה טוב, בקטע רע (בגלל התגובות שייצר, א.א.)", אמר קילכר והוסיף כי המודל שיצר – שזכה לשם GPT-4chan – כלל בתוכו תמהיל מושלם של תגובות פוגעניות, ניהיליסטיות, מטרילות וכאלו המביעות היעדר אמונה עמוק בכל מידע אפשרי. הוא מספר כי באופן מפתיע, למרות שהמידע שעליו התבסס המודל היה במקרה הטוב בן 3 שנים ובמקרה הרע בין 6 שנים – הוא עדיין הצליח להגיב על אירועים אקטואליים בצורה קוהרנטית.

קילכר הרגיש שהמודל מוצלח מאוד, אבל החליט לא רק לחוש זאת – אלא גם לקבל חותמת המאשרת זאת על ידי הרצת מעין מבחן טורינג – שורת מבחנים לבחינת מודלי שפה בשם Language Model Evaluation Harness, וגם שם GPT-4chan זרח. הוא מספר כי המודל הצליח במיוחד כשנבחן בבנצ'מרק הבוחן עד כמה המודל דובר אמת (בשם TrurthfulQA). מדובר במבחן שבו עונה המודל על שאלות במגוון תחומים ובסופו של דבר נבחן על כמה תשובות ענה אמת או שקר – כדי לבדוק עד כמה הוא מצליח שלא לחקות בני אדם הנוטים לשקר בשאלות מסוימות. קילכר מדווח כי המודל שלו השיג תוצאות טובות יותר מהמודל המקורי ששימש אותו – GPT-J – ואף הצליח יותר ממודל השפה המוכר ביותר בעולם – GPT-3.

בוט או קבוצה של הצבא ההודי

אחרי כל הצלחות הללו, קילכר יצא לדרך והפך את המודל שלו לבוט שיגיב על פוסטים רנדומליים ב-/pol/ תוך כדי שהוא עוקב אחרי התגובות של משתמשים אחרים לבוט שלו – כדי לראות כמה מהם מצליחים לזהות שאכן לא מדובר באדם אמיתי.

בסרטון שפרסם הוא מספר כי הצליח לעקוף את ההגבלות של 4chan על בוטים ע"י תשלום על מינוי לאתר המפוקפק, ומשם יצא לדרך עם בוט של משתמש מאיי סיישל (האיים מהווים חממה ללא מעט שרתי פרוקסי) שחלק מהמשתמשים חשדו או קבעו שמדובר בבוט, בין השאר בגלל כמות התגובות האדירה שפרסם בזמן קצר ובגלל שפרסם לא פעם תגובות ריקות מתוכן, בזמן שלא מעט משתמשים הצליחו ליפול בפח ואף חשבו כי מדובר בקבוצה של בני אדם. משתמש אחד אף טען כי מדובר בקבוצה של הצבא ההודי, שיש לו בסיס הפועל מסיישל.

קילכר מספר כי לצד הבוט מסיישל, שעליו הוא בעיקר מרחיב את הדיבור בסרטון – הוא שחרר במקביל 9 בוטים נוספים, שהגיבו יחד עם הבוט המקורי בערך 15 אלף פעמים תוך 24 שעות בלבד. עוד מספר קילכר כי הוא הבין שהבוטים שלו מפרסמים הודעות נטולות תוכן, כי חלק מהדאטה שהזין למודל ובסופו של דבר הגיע לבוט כלל הודעות ללא תוכן אבל עם תמונה שהיוותה התגובה לטקסט כלשהו.

אחרי סבב שיפצורים למודל המקורי, שכלל הסרה של כל התגובות שכללו אך ורק תמונה בלי מלל, קילכר שחרר את הבוטים שוב – ואף פרסם פוסט שבו הודה שהוא זה שמאחורי הבוטים וכי הוא עומד לשחרר אותם שוב. ועדיין, אחרי 24 שעות נוספות שבהן עשרת הבוטים ירו כ-15 אלף תגובות, היו מי שסירבו להאמין שאלו בוטים וחשבו שמדובר באדם אמיתי – אולי אפילו איש מטעם כוחות הביטחון.

אנחנו למשל השתמשנו במודל כדי לשאול שאלה: "מי עומד מאחורי פיגועי התאומים". אחת התשובות שיצר המנוע היתה, איך לא, "המוסד". שאלות אחרות זכו לתשובה "למי אכפת", "אני חושב שזה גבר" ואיך לא – "Bump" או "מקפיצ/ה".

כיאה למי שבנה את הבוט על סמך מאגרי מידע ומודל שפה בקוד פתוח, קילכר שחרר את GPT-4chan לציבור הרחב והעלה אותו ל-HuggingFace – שהוא כמו בן הדוד מוכוון ה-AI של גיטהאב. עם זאת, לאחר שחוקרי AI התלוננו על כך שהמודל יכול לשמש לפגיעה בבני אדם אחרים וכי השימוש של קילכר במודל היה לא אתי – מכיוון שהוא נוסה על בני אדם ללא ידיעתם, ללא הסכמתם ומבלי שהנושא נבחן על ידי צד ג' – הפלטפורמה חסמה את הגישה אליו. אם אתם רוצים לשחק איתו קצת, תוכלו לעשות זאת כאן.

 

אושרי אלקסלסי

Your Friendly Neighborhood Geek. יש לכם סיפור טכנולוגי? דברו איתי: [email protected]

הגב

10 תגובות על "חוקר יצר בוט כדי לבדוק מה קורה כשה-AI פוגש את אחת מהפינות החשוכות של האינטרנט"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
Bogdannof
Guest

4chan זה אתר נפלא עם אנשים נפלאים

דני
Guest

אני גולש ב/פול/ ובכלל לא שמתי לב לבוט כי אני מתעלם גם ככה מתגובות שהם low quality

bog
Guest

רוב הפואנטה של 4chan זה בעיני תגובות low quality, מקום שבו אתה יכול לכתוב *כמעט* כל מה שעולה לך לראש בלי סוג של consequence.

ffdd
Guest

שתוק ימסכן , יהודי שגולש בפול? אתה פשוט סטריאוטיפ אפס יהודי חנפן ומתרפס תתלה את עצמך.

מממממ
Guest

מדהים, הבוט כבר תורגם לעברית!

יסמין
Guest

זו הבעיה הכי גדולה עם האלגוריתמים הנוכחיים – אין להם משהו שיכול להיחשב כמצפון, והם לא באמת מבדילים בין טוב לרע. אם מישהו אומר שהמוסד מאחורי פיגועי התאומים, אין להם שום דרך לשפוט את זה והם נידונים לקבל את זה כפי שזה נאמר. הקטע הכי מעצבן זה החלק בו בני אדם ניתנים להתרשמות מקבלים את אותו הקלט ומגיבים באותה הצורה – וזה פשוט עצוב.

מממממ
Guest

הרי ידוע שזבל נכנס-זבל יוצא

אדם שפוי.
Guest

מה שאני לא מבין זה איך אפשר להבחין בינו לבין רוב המפרסמים האנושיים שם. הרי גם להם יש מוח בוט, שלא לומר טראמפביבוט, באופן שהם חוזרים בו על כל הבל, הזיה ומופרעות שלוחת רסן.

רפאל
Guest

1500 ולא 15000

ראובן
Guest

4צטן זה אתר מדהים ופול זה אחד הטובים איזה "פינה חשוכה" בראש שלכם.
דבר שני מעניין היה לקרוא על הבוט אבל האנשים של 4צאן יותר מידי חכמים בדרך כלל לכל מיני ספאם.
הייתי מנסה את מזלי עם הבוט באינסטגרם או פייסבוק שם כל אחד נעל

wpDiscuz

תגיות לכתבה: