מומחה נתונים ישראלי הוריד את כל המידע שפייסבוק אספה עליו, וחזר עם כמה תובנות מסקרנות

יואב טפר, מומחה נתונים, הוריד את קובץ המידע הענק עם כל המידע האישי שפייסבוק שמרה עליו בעשור האחרון. הוא שיחק עם טבלאות, הצלבות וגרפים וחזר עם כמה תובנות מעניינות מאוד

מקור: Pexels

מאת: יואב טפר

במרץ 2018 התפוצצה פרשיית קיימברידג’ אנליטיקה (2018-2013), כאשר נחשף לציבור הרחב כי מידע על כ-50 מיליון משתמשי פייסבוק “זלג” לחברת מחקר פרטית שעשתה בו לכאורה שימוש לתעמולת בחירות. כחודשיים לאחר מכן הוצפה תיבת המייל שלי (ושל רבים אחרים) בהודעות מכל האתרים בהם אני מנוי על כניסתה לתוקף של האסדרה הכללית להגנה על מידע (GDPR – General Data Protection Regulation) – הלוא היא רגולציה של האיחוד האירופי המסדירה את זכויותיו של הפרט לגבי המידע שנאסף עליו; רגולציה אשר מתירה למשתמשים, בין היתר, גישה ישירה למידע השמור עליהם.

הסמיכות לאירועים האלה, בשילוב הסקרנות הכללית, הציתו בי את החשק לראות במו עיניי ולהבין אחת ולתמיד מהו בדיוק אותו מידע ששמור עלי ומה הוא כבר יכול להגיד עליי?

1,220 קבצים של מידע אישי

חדור מוטיבציה פתחתי את חשבון הפייסבוק שלי, ותוך לחיצות בודדות בלשונית ה”הגדרות” כבר היה לי עץ תיקיות מרשים על המחשב, מלא במידע עסיסי על העצמי-הדיגיטלי שלי.

אני כמובן לא ממהר להתלהב לפני שאני יודע איזה מידע אני מחזיק ביד, ולכן הצעד הראשון שלי היה לעבור על הנתונים, כ-1,220 קבצים, אם כי רק 47 מתוכם באמת דרשו מיפוי (הסיבה לפער היא שפייסבוק שומרת תיעוד צ’אט נפרד לכל חבר שאי פעם התכתבנו איתו, וכל מאות הקבצים הללו הם באותו הפורמט). בניסיון להיות ענייני ככל האפשר, ריכזתי את עיקרי הממצאים בחלוקה גסה ל-4 נושאים.

מידע אישי

נתוני פָנים. מדובר בטביעת אצבע דיגיטלית ייחודית שפייסבוק יצרה לפרצוף שלי ותפקידה לפרט את עוצמת גוני האדום/צהוב/ירוק שיש לפנים שלי בתמונות, אשר משמשת בין היתר לזיהוי אוטומטי של הפרצוף שלי בתמונות, לרשימת פרטיהם של כל אנשי הקשר שלי שמאוחסנים לי במכשיר הנייד ולאפיון החוג החברתי שלי. אני, אגב, קוטלגתי כ”מתחיל את חייו הבוגרים”.

מידע פרסומי

כל פרסומת שאי פעם לחצתי עליה (וגם מתי); רשימת נושאים פרסומיים שנמצאו כמתאימים למשתמש שלי ובה כ-750 נושאים, ואם להיות כן – היא קולעת יפה מאוד לתחומי העניין שלי (טוב נו, חוץ מ”חמאה” ו”חנוכה” שאין לי באמת עניין מיוחד בהם); רשימת מפרסמים שהופעתי ברשימת אנשי הקשר שלהם – כ-55 ישויות שבאופן אקטיבי כיוונו אליי פרסומות, ומודה אני לפניכם שאין לי מושג איך הפרטים שלי הגיעו אפילו למחצית מהגופים הללו.

שיחות והודעות (הכל כולל מועד מדויק)

תיעוד המשתתפים בשיחות קול/וידאו ואורכן, וכן התוכן של כל שיחות הצ’אט משחר ההיסטוריה; תיעוד יומן השיחות של המכשיר הנייד.

פעילות בפייסבוק (הכל כולל מועד מדויק)

חברים שהוספתי/הסרתי; לייקים ואמוג’יז ששלחתי או קיבלתי, כולל ממי הגיעו ולמי; תגובות שהגבתי או קיבלתי, וגם פה – ממי ולמי; פוסטים שכתבתי או שכתבו על הדף שלי; אירועים שהזנתי להם סטטוס הגעה, כולל הברזה או התלבטות; הצטרפות ועזיבה של קבוצות; היסטוריית מיקומים; היסטוריית תשלומים;
היסטוריית חיפושים; היסטוריית חיבורים לפייסבוק הכוללת מזהי דפדפן וכתובות IP; תמונות וסרטונים גולמיים.

יופי, עכשיו כבר לגיטימי להתלהב.

עכשיו, קצת עבודה שחורה

חמוש בשפת תוכנה (Python) ובמערכת לניתוח נתונים (Tableau), התחלתי לעבד את כל המידע. תחילה נדרשו כמה שעות של כתיבת קוד על מנת לתקנן את כל פיסות המידע השונות בצורה אחידה (התמודדות עם שפה עברית, חילוץ שמות של אנשים מתוך תבניות טקסט, איחוד מידע על פי נושאים, יצירת טבלאות עם מידע סיכומי וכו’).  למי שלא בקיא בפרטים ולשם המחשה, זה נראה כך:

כך נראה המידע הגולמי

לאחר ‘שיפוץ’ – טבלה המציגה מידע קוהרנטי בחלוקה לשדות שבחרתי לחלץ

 

 

 

 

עכשיו, כשכל המידע במצב הצבירה הנכון, אפשר להתחיל לשחק!

ועכשיו, קצת משחקים 

כנציג גאה לדור ה-Y, המשתמש זה כ-10 שנים באופן שוטף בפייסבוק, לא הופתעתי לגלות כמה מידע שמור עליי (רק הטקסט לבדו שקל כ-21 מגה, וזה לא מעט). אבל מה המידע הזה בכלל אומר עליי? בתור התחלה, רציתי לבדוק את מידת הפעילות שלי ברשת לאורך הזמן. לשם כך יצרתי מנגנון דירוג אורדינלי (יצירת דירוג של סדרי גודל), שישקלל עבור כל שנה בכמה ימים שונים הייתי פעיל בהתבסס על לייקים, צ’אטים, תגובות ופוסטים שיזמתי לאורך השנים. כך זה נראה:

מגמת השימוש שלי בפייסבוק, 2008-2018

למיטיבי לכת, הסבר אפשרי לשימוש הגובר בשנת 2011 הוא גם כמות הזמן הפנוי בתקופה זו, בה הייתי בין לימודים לצבא, וגם עליית קרנה של הרשת החברתית בשנים 2011-2010 בארץ. הנה למשל מגמת החיפושים בישראל של המונח “פייסבוק” כפי שלקחתי מ-Google Trends:

חיפושים בגוגל של המילה “פייסבוק”, 2008-2018

בכל אופן, אפשר לומר שאני די פעיל ברשת החברתית לאורך העשור האחרון, ועל כן ארשה לעצמי לייחס רמת אמינות גבוהה לסטטיסטיקות ארוכות טווח בהמשך.

אמור לי מי הם חבריך ואומר לך מי אתה

כיום, מונה חשבון הפייסבוק שלי כ-1,500 חברים. חישוב זריז יעלה כי בעשור האחרון צירפתי בממוצע 12.5 חברים בחודש. על מנת למקד מעט את הפוקוס שלי קבעתי (כמעט שרירותית) את המספר 23 כרף המגדיר “חודש עתיר חברים חדשים”. עבור כל חודש שבו הוספתי 23 או יותר חברים ניסיתי לתאר את התופעה על פי אירועים מרכזיים שקרו באותו חודש (עד כמה שהזיכרון אפשר לי), וכן לראות אם יש הלימה מול רמת הפעילות החודשית שלי בפייסבוק:

בצבע – כמה חברים הוספתי מדי חודש, 2018-2008
באפור – רמת הפעילות החודשית שלי (על פי אותו הדירוג האורדינלי שהצגתי בהתחלה) 2008-2018. חדי העין יבחינו במקטעים שבהם ניכרת הלימה בין מגמות הגרפים.

אז בעיקר נחמד לראות איפה רכשתי את רוב חברי לפייסבוק לאורך השנים האחרונות – צבא העם כמרקחה. אך מה מעבר לזה? אולי פייסבוק יצליחו לאפיין בעצמם אבני דרך בחיי רק על פי המגמות הללו והקשרים בין אותם החברים, וכך ידעו להציג לי את המידע בצורת סרטון משעשע עם מוזיקה מעצבנת כמו שהם עושים מדי פעם? או אולי למשל פייסבוק ימפו את כל המשתמשים עם גרפים דומים בשנות ה-18-21 לחייהם ויאתרו קליקות של אנשים שבסבירות גבוהה חלקו את אותו המסלול צבאי? זה כבר יותר נחמד. בגדול, האפשרויות הן אינסופיות.

אמור לי מתי הם חבריך ואומר לך מי אתה

אצלי בפייסבוק אין לייקים חינם. עבורי לייק הוא פרגון אמיתי מהלב, ואם כבר לב, אז להשתמש בלב במקום בלייק זה בכלל מצרך נדיר. אם להיות ספציפי יותר, אני סבור שלב שווה פי 5 יותר מלייק בעוד שתגובה שווה חצי לב, וכמות הימים השונים שדיברתי עם מישהו בצ’אט שווה בערכה לתגובה אחת שהגבתי לאותו אדם. מובן שזה רק איך שאני מעריך את הדברים, אבל היי – יש לי פה מודל זול למדוד את החיבה שלי לאנשים.

ואכן כך עשיתי, הרצתי בדיקה על 5 השנים האחרונות בשיטת הדירוג המדוברת (סייג קל – תגובות שונות מלייק נכנסו לשימוש רק ב-2016), ניקיתי רעשים של משתמשים שקיבלו ציון נמוך, ובכך הצפתי רשימת אנשים שלחלוטין ניתן להגדיר אותי כבעל חיבה אליהם, וזה עוד בלי להסתכל כלל וכלל על התוכן (מה הגבתי, מה כתבתי בצ’אט ואת מי תייגתי), אלא אך ורק על עצם קיומן של האינטראקציות שציינתי לעיל.

חברי הפייסבוק שקיבלו את הציון הכי גבוה ב-5 שנים האחרונות: גודל העיגול כגודל הציון וצבע העיגול בהתאם לציון על ספקטרום אדום-כתום-צהוב-ירוק-ירוקבקבוק-ירוקזית.

אפילו מעניין יותר, אני יכול לראות את השתנות החוג החברתי (הדיגיטלי) שלי לאורך השנים:

החברים שקיבלו את הציון הכי גבוה מדי שנה בין השנים 2018-2008. וכן, אני יודע, זה נראה כמו עבודה בביולוגיה. יתרה מכך, אני יכול להוסיף למשוואה גם את רמת הפעילות השוטפת שלי מול כל חבר לפי יומן השיחות שלי בטלפון (אין באמת בעיה לצמד בין שם של חבר לבין המספר טלפון שלו), שהרי גם המידע הזה נשמר על ידי האפליקציה של פייסבוק.

כך או כך, בעודי נפעם מכמה המידע הזה אכן מגולל את סיפור חיי נאמנה, אני לא יכול שלא לחשוב איך לקחת אותו למקום המתבקש הבא, זוגיות.

כבדיקת היתכנות, בדקתי באופן דומה גם את רמת האינטרקאציה שלי ברשת החברתית עם מערכות יחסים מן העבר:

שלוש מערכות יחסים שלי כפי שהן משתקפות על ציר הזמן דרך אינטראקציות פייסבוק.

מטעמים ברורים לא תראו פה שמות/תאריכים/מספרים, רק אציין שהצבעים השונים מציינים מערכות יחסים שונות על ציר הזמן ומספר הנקודות הוא כמספר הפעמים שציון האינטרקאציות עבר רף מסוים.

אכן המידע המוצג תאם את הציפייה שלי. פירוש הדבר הוא שזה מאוד ישים למפות “קשרים משמעותיים” וכמה זמן הם נמשכו. אם נביא בחשבון פרמטרים נוספים כגון: מין, גיל, מילות מפתח, יחס שליחה/קבלה של הודעות, תיוגים, פסילה של פרופילים שחושבים שהסרט “בין כוכבים” הוא מוצלח ועוד נתונים רבים ויצירתיים ככל העולה על דמיונכם (נתונים שלפייסבוק לחלוטין יש), פוטנציאלית, אלגוריתמים מספיק מדויקים של פייסבוק יכולים לא רק להציע לי בני זוג אפשריים, אלא הם אולי יכולים להעריך נטייה מינית, לנבא אחוזי התאמה בין אנשים, ובעצם, מה לא? הלכה למעשה, אין שום מניעה שפייסבוק תהפוך לאתר שידוכים מהמוצלחים שיש… בעצם, היא כבר הפכה.

Location Location Location

בעוונותיי, לא אפשרתי לפייסבוק במשך השנים גישה למיקומים (איכונים) של המכשיר שלי, ולכן המידע הזה לא קיים אצל פייסבוק. אבל כדי לא לפגום מההנאה של סקירה זו, הלכתי ל-Google Timeline (למי שלא הכיר, כל חייכם על מפה) והורדתי ממנו את כל המידע שאסף עלי ביתר קפידה לאורך השנים.

הדבר הבא שעשיתי היה למפות את כל האירועים שאי פעם סימנתי בפייסבוק שאגיע אליהם על ציר הזמן, ולהצמיד את הנתונים של האירועים על פי חלונות זמנים, לאיכונים שגוגל שמרו עליי.

פסים על ציר הזמן = אירועים שסימנתי שאגיע אליהם; הנקודות על המפה = איכונים שלי מכל אותם התאריכים

והנה דוגמה ספציפית – איפה הייתי בכל רגע ביום ההופעה של גאנז אנד רוזס בפארק הירקון – Welcome to the jungle

כלומר בהנחה ומייחסים אמינות לסטטוס ההגעה שהזנתי לאירוע מסוים, קל לדקור על מפה את מיקום ההתרחשות או להיפך – קל לקבוע אם אכן נכחתי באירוע. אז מה? כל אחד בדמיונו יפליג, אולי פייסבוק יציעו לי אירועים שאני צפוי להתעניין בהם על סמך התנהגויות עבר שלי; אולי פייסבוק ממפה באילו קבוצות גילאים מאוכנים באילו מקומות ובאיזה דפוס ותמכור את המידע למשקיעים המעוניינים להקים או להשקיע בבית עסק. השמיים הם הגבול.

דברים אחרים

ישנם עוד הרבה ממצאים, אבל בשלב זה אני מרגיש שהעניין מוצה ולכן לא אקדיש להם פסקאות שלמות. הנה למשל שעות פעילות מרכזיות בפייסבוק, כי אין כמו הפסקת קפה ב-14:00.

פוסטים על הקיר שלי לפי חודשים – ותודה לכל מי שנזכר בי כל ינואר ביום ההולדת.

 

המילים הנפוצות ביותר שאני עושה בהן שימוש (נשבע שמימיי לא כתבתי “זה לא אני זה את” לאף אחת).
אגב, לא חסרות טכנולוגיות היום כדי לאמן תוכנת מחשב לחולל הודעות אפשריות שלי על סמך הודעות עבר שלי (האם שמעתי מישהו בקהל צועק “מראה שחורה עונה 2 פרק 1”?)

לצערי נבצר ממני להציג לכם אנליזות מעניינות על היסטוריית החיפושים שלי מכיוון שאני נוהג לנקות אותה אחת לכמה זמן (מה שמתברר שנמחק גם מהשרתים של פייסבוק), אך רק דמיינו איזה אוצרות גלומים אצלכם.

אז איזה טיפוס אתם?

בגדול, עולם המשתמשים מתחלק ל-3 טיפוסים: האדישים, החרדים לפרטיותם והמתירנים. הקבוצה הראשונה – אם הגעתם עד לכאן, שאפו; הקבוצה השנייה – אני מקווה שלפחות עכשיו אחרי שקראתם את הסקירה הזו, אתם יכולים לדעת בדיוק איזה מידע שמור עליכם אי שם במעמקי מסדי הנתונים של פייסבוק. ודעו כי באופן כללי, בכל ארגון המציית לתקנות ה-GDPR אתם רשאים לבקש שימחקו את המידע האישי שלכם (עם מספר סייגים); הקבוצה השלישית – אתם מוזמנים פשוט להתלהב מעושר המידע וההזדמנויות שהוא טומן בחובו ולנסות לחשוב איך אפשר להשתמש בו על מנת להטיב עם המשתמשים, הרי אם אנחנו כבר חיים במציאות שבה דוחפים לנו פרסומת לפנים בכל הזדמנות וכבר בקושי מתחילים שיחה עם אדם זר ברחוב, למה שהפרסומת או השידוך לא יהיו המתאימים ביותר?

נוסף על כל האמור לעיל וכהסתייגות אחת גדולה, ראוי ואף חשוב להדגיש כי המידע שנשמר על כל אחד ואחד מאיתנו הוא שונה מאוד בתכליתו, בנפחו ובמשמעותו, וזאת בעקבות שלל גורמים שהבולטים שבהם הם דפוסי ההתנהגות השונים שלנו ברשת, משך הזמן שאנו פעילים בה ותורמים לה מידע, וכמובן אי אילו הרשאות שנתנו/שללנו מהאפליקציות שלנו במרוץ הזמן. כמו כן, אי אפשר להתייחס לפייסבוק כאל מקור מידע קוהרנטי ויחיד לאורך השנים, יש להביא בחשבון את כניסתם של אפליקציות כדוגמת אינסטגרם, ווטסאפ וטוויטר על ציר הזמן וכיצד הן השפיעו על השימוש של משתמש בודד בפייסבוק, אך כאמור, סקירה זו באה להציג יותר את הרעיון יותר מאשר את המתכון.

אינני מתיימר להיות מבין גדול ברשתות חברתיות/מודלים סטטיסטיים/מדעי ההתנהגות, כל המחקר שהוצג לפניכם התבסס אך ורק על אינטואיציה והשקפה אישית ואינו נשען על עבודות קודמות שרבים וטובים ממני יתכן שכבר עשו, אך אני כן מקווה שאת מטרתי להנגיש ולהמחיש את המידע וכן לאפשר לקורא להרהר בשימושים האפשריים שלו – השגתי.

נכתב על ידי יואב טפר, הידוע (בפייסבוק) גם בתור: “מתחיל את חייו הבוגרים”, “מגיב לפרסומות בנושאי מוסיקה, טכנולוגיה אמנות ונופשים”, בעל טביעת האצבע הייחודית:

 

הכותב הוא אנליסט, מפתח ומוזיקאי, עובד כ-Data Expert ב-Verint

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

20 תגובות על "מומחה נתונים ישראלי הוריד את כל המידע שפייסבוק אספה עליו, וחזר עם כמה תובנות מסקרנות"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* שימו לב: תגובות הכוללות מידע המפר את תנאי השימוש של Geektime, לרבות דברי הסתה, הוצאת דיבה וסגנון החורג מהטעם הטוב ו/או בניגוד לדין ימחקו. Geektime מחויבת לחופש הביטוי, אך לא פחות מכך לכללי דיון הולם, אתיקה, כבוד האדם והדין הישראלי.

סידור לפי:   חדש | ישן | הכי מדורגים
שחר
Guest

סקירה מעניינת. נחמד שיצאו לך תובנות מזה לאור ההשקעה הגדולה. למה Tableau ולא pandas?

יואב
Guest

תודה רבה! עם ה-Tableau אני עובד בשגרה והיא נתנה לי מענה יותר מהיר. בגדול זה מכיוון שלא הייתי מעוניין לעשות משהו תשתיתי יותר אלא רק לייחצן החוצה את התובנות כמה שיותר נהיר ומהיר, וכדי שיתאפשר לי לשחק בקלות יתרה עם הפרמטרים בלייב.

איש
Guest

השלב הבא – לפתח תכנה שתאפשר לכל אחד להזין את תיקיית הקבצים אותה הוא הוריד מהפייסבוק, ולמצות את המידע האיכותי הזה בעצמו.
תחשוב על זה

כרובי
Guest

לא רק מפייסבוק, מעוד הרבה ספקים (למשל גוגל), ולהצליב נתונים בין כולם…

כרובי
Guest

אפשר גם להמתין ששוב תוכנות ידלפו מהNSA ואז להשתמש באחת כזאת, ברמת בשלות גבוהה יותר…
לא קשה מנתונים כאלה להסיק לגבי סד”כ צבאי של יחידות ודברים נוספים כאלה. והגיוני להניח שגופים כמו NSA רוכשים גישה לנתונים, ושגופים כמו סין “דואגים” לעצמם לגישה.

עודד
Guest

רעיון מעולה רוצה לפתח?

Asaf Shelly
Guest

נשמע כמו חברה שיהיה לה את המידע של פייסבוק וגם של גוגל, שזה הבסיס של השווי שלהם.

גיא גן ברוך
Guest

כתבה מדהימה כל הכבוד על ההשקעה

מישהו
Guest

מעניין לי תביצה השמאלית, פייסבוק יכולה לנשק לי את התחת

עודמישהו
Guest

אז יש לך תחת, וביצה שמאלית. מעניין – מה קרה ביצה הימנית שלך?

Shai
Guest

האם יש אפשרות להשתמש בכלי שבנית בשביל לנסות בעצמי?

יואב
Guest

אני מקווה שבהמשך אגיע להכין משהו כזה, אך כרגע אין משהו זמין…

איתמר
Guest

יואב, אחלה ביצוע ואחלה כתיבה, סחטיין. איך אפשר להתעדכן אם וכשתבנה כלי כזה לקהל הרחב? יש דרך לעקוב אחרי מעשיך?

יואב
Guest
מוטי
Guest

אחלה כתבה, אם כי לא מפתיעה.
סופסוף גיקטיים מייצרת עיתונאות,
ולא רק איסוף התוכן המשמים שיש פה בחודשים האחרונים

מושיק
Guest

וואו, איזו השקעה בשביל לקבל הצעת עבודה מפייסבוק.
כל הכבוד. ככה עושים את זה!

שירי
Guest

נושא מרתק וכתיבה מעולה. נהניתי!!

ניר
Guest

יפה ומקיף מאוד! יששכוייח

שי כאן
Guest

מעולה! תודה רבה על העבודה המרתקת .

dorond
Guest

האם אפשר לדעת גם מי מוחק עוקבים בדף העסקי ובאינסטגרם?

ולא מדובר בעוקבים פיקטיביים או עוקבים שהיום עוקבים ומחר מוחקים (כבר נשאלנו מדוע מחקנו כאשר אנחנו לא מחקנו וגם העוקבים שלנו לא מחקו את עצמם).

ממש אקר שהשתלט על הפרופיל בפייסבוק ואינסטגרם ומוחק עוקבים וגם לייקים?

אשמח אם למישהו יש פתרון בנושא?

wpDiscuz

תגיות לכתבה: