עכשיו, כשניצולי השואה הולכים ומתמעטים, אנחנו צריכים להתייחס למאגרי המידע כ"עדים דיגיטליים"
באופן מפתיע אולי, מאגרי המידע הדיגיטליים שמתעדים את קורבנות השואה הם מעטים, והגדול שבהם – המאגר של "יד ושם" – מציע חיפוש פשוט שלא מתאים לעידן ה-Data Science. דוגמה טובה לפוטנציאל של מאגרים מתקדמים אפשר לקבל מחוקר נתונים ישראלי, שבנה באופן עצמאי תוכנה לניתוח מידע ממאגר "יד ושם" שסיפקה לו לתובנות, נתונים וגרפים
מאת יואב טפר
אני זוכר שלפני כ-18 שנים, בערך בכיתה ב', המורה שלי הראתה לנו סרט הסברה שאחריו התקיים דיון על כך שבקרוב לא יישארו עדים לספר את סיפורם, וכי אנו ניאלץ לספר לילדינו את מאורעות השואה אך ורק באמצעות ספרים וקלטות.
נדמה שהיום, כשהאינטרנט בשיאו, ודאי קל יותר למצוא נתונים ועזרים לזכר השואה, לכן הנחתי שיהיה פשוט למצוא מחקר אנליטי ברוח המאה ה-21 על קורבנות השואה, או לפחות כמה גרפים ברורים.
התוצאות היו די מפתיעות – בקושי יש.
אבל יותר משהפתיע אותי שלא מצאתי הרבה דברים בחיפוש, הדבר המרכזי שהטריד אותי היה שלא הצלחתי למצוא מאגר נתונים גולמי מוצלח, כזה שיאפשר לכל חוקר/אנליסט לגשת אליו ולהפיק ממנו תועלת, כיאה לעידן ה-Data Science.
מאגר המידע המשמעותי ביותר שמצאתי היה של "יד ושם", המכיל מיליוני רשומות עם פרטים ביוגרפיים של קורבנות השואה, שלוקטו באופן דקדקני משנת 2004 ועד היום ונגיש לקהל הרחב. אך הגישה למאגר זה מתאפשרת רק ע"י חיפוש ידני באתר שלהם, מה שלא מאפשר לבצע מניפולציות בכלים אחרים.
לשם כך בניתי תוכנה שמבצעת את התשאולים באופן אוטומטי מול האתר (כמובן באופן שאינו מפר את תקנון השימוש וחוקי הפרטיות של יד ושם). לאחר מספר לילות של איסוף מידע יצרתי לעצמי טבלה עם כ-7 מיליון רשומות של "מקום פטירה ולידה", "שנת פטירה ולידה" ו-"סיבת פטירה".
המידע של "יד ושם" רחוק מלהיות שלם – הוא נערם באופן ידני ברובו, יש בו רישומים כפולים, יש קורבנות שלא רשומים בו, וכמובן שהרבה ממקורות המידע של האתר ניזונים ממסמכים ישנים או רשימות שאין ביכולתי לתת את הדעת על רמת האמינות שלהן. אך עדיין, יש במידע בלעדי זה בכדי לקבל הסתכלות נוחה ומטרידה כאחד, על סדרי הגודל של מאורעות השואה.

מפת חום של ארצות אירופה – כמה קורבנות נהרגו על אדמת כל מדינה. הגבולות אינם מדויקים שכן העבודה נעשתה על מנגנון גיאו-קודינג בגבולות מודרניים ולא בגבולות המדינות כפי שהיו במלחמת העולם השניה
מיותר לציין שזהו רק קצה הקרחון, אלו רק כמה גרפים פשטניים המוגשים כשירות לציבור.
תארו לכם שהיינו לוקחים בחשבון קשרים בין שמות משפחה ומיקומים גאוגרפיים של קורבנות, או שהיינו מאפיינים קבוצות אנשים לפי תנועות משותפות באותן שנים (יש מספיק נתונים כדי לאפשר בדיקות שכאלה).
הקורא היצירתי יכול לתאר לעצמו שמחקר מקיף יותר אולי יוכל להקנות תובנות בקהילה הבינ"ל החל מאילנות יוחסין, ניתוח היסטורי של המלחמה, ועד הרמה הפרסונלית שתאפשר להגיע לגילוי מפתיע על גורלם של קרובי משפחה שנספו/נעדרו בשואה.
לאור האמור לעיל, פניתי ל"יד ושם" בהצעה לאפשר לי להפיץ מאגר נתונים גולמי שכזה לקהילה הבינלאומית הרחבה, כך שכל אדם בעולם יוכל לגשת למאגר הבלעדי והחשוב הזה ואולי הדבר אף יעודד יוזמה של מחקרים שלא היו קיימים עד היום. עודני ממתין לתשובתם הרשמית, לכשתתקבל, אדאג לעדכן בכתבה זו.
מאגר שכזה הוא אינו נחמה אמיתית, אבל במציאות שבה העדים האנושיים הולכים ומצטמצמים, מן הראוי שלפחות ה-"עדים הדיגיטליים" יוכלו לספר את הסיפור נאמנה אחריהם.
הכותב הינו דור שלישי לניצולי שואה
דיסקליימר: ע"פ הסעיף לשימוש נאות במידע של אתר יד ושם, אני, יואב טפר, מצהיר כי השימוש נעשה למטרות פרטיות וחינוכיות בלבד, ללא כל מטרת רווח או מטרה מסחרית. כל הזכויות שמורות לאתר יד ושם והמידע התקף והנכון הוא אך ורק זה שנגיש מאתר יד ושם. בכתבה זו נעשה אך ורק שימוש ברשומות המכילות שמות מדינות, שנים, וסיבות פטירה, ובפרט לא נעשה כל שימוש במידע אישי הנוגע לזהות הקורבנות.
הגב
9 תגובות על "עכשיו, כשניצולי השואה הולכים ומתמעטים, אנחנו צריכים להתייחס למאגרי המידע כ"עדים דיגיטליים""
* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.
חבל לכם על הזמן ועל הכסף, מדינת ישראל נזעקת על חילול של כל קבר של יהודי בחו"ל, אבל כשהיא רוצה לבנות שכונה או לסלול כביש אין לה בעיה לאסוף עצמות של יהודים לשים בארגזים ולאחסן אותם בביזיון במרתפי רשות העתיקות, אתם אומרים לעולם לא נשכח את השואה אבל אני בספק אם מישהו מהנוער כיום יודע מה קרה בתשעה באב, בעוד כמה דורות אנחנו לא נשכח אלא נשכיח, כי מה שאנחנו עושים היום להיסטוריה של העם שלנו, דור ההמשך שלנו יעשה להיסטוריה שלנו.
איך אפשר להשוות בכלל את השואה לחורבן הבית לא בכמות ולא במרחק הזמן
כל הכבוד :) אני משער של-MyHeritage יש מידע שאפשר להיעזר בו
שלושה = שלוש חברות קונגרס*
עימצו = אימצו
ייתכן ויש לי עוד טעויות שפיספסתי, אין לי מקלדת בעברית :)
סליחה מראש.
הגיע הזמן שמאגר הנתונים של יד ושם יפתח כקוד פתוח. אין ליד ושם או אף גוף אחר בעלות על כתבי העדות של שני סבי וסבתי.
צודק כותב המאמר ששיטת החיפוש ואפשרויות החיפוש באתר יד בשם דלות ולא מאפשרות חיפוש מתקדם כיאה לאתר רשמי ומחייב בו המידע שייך לניצולים ולשורדים. כדור שני לניצולי שואה הקשה עלי החיפוש באתר עד מאוד.
תודות לחיפושים שערכתי ביד ושם לאחר לילות שלמים של חיפוש. מה שהיה אמור להיות כאופצית חובה במערכת מצאתי מידע מעדות שנתן בן הכפר על משפחתי ואפשר לי לדעת פרטים מלאים על מועד הירצחם ולחזק בעדות בכתב את מה שעבר בעל פה מהניצולים.
אני שמח על כך שכותב המאמר מוכן להעמיד את התוכנה שפיתח לרשות הציבור כדי לעזור לנו בחיפוש מידע רלוונטי לתיעוד גורל בני משפחתנו.
כל הכבוד על המיזם שכל כך חשוב !!!
Now available in english as well –
https://towardsdatascience.com/the-digital-survivors-dc3311cb9602