הצצה למערכת הדאטה הסינתטי הישראלית שגייסה עכשיו 50 מיליון דולר

הסטארטאפ Datagen רוצה שתפסיקו להשתמש במאגרי מידע מוטים, והם טוענים שזה ממש לא קשור לפוליטקלי קורקט

דאטה בכלל לא סינתטי: עובדות ועובדי Datagen | צילום: נדב יונתן כהן

הסטארטאפ הישראלי Datagen הודיע היום (ד') על השלמת סבב גיוס B בהיקף מכובד של 50 מיליון דולר בהובלת Scale Venture Partners ובהשתתפות TLV Partners, Viola Ventures, Viola Growth ו-Spider Capital. אנחנו קיבלנו הצצה מעניינת לפלטפורמה שהחברה מפתחת, שרוצה שתפסיקו לאמן את המודלים שלכם על מאגרים נתונים קנויים, ותתחילו להשתמש במאגרי מידע סינטטיים. מה כל זה אומר ולמה זה טוב? בואו נבין.

לבנות את המאגר שלכם בדיוק כמו שאתם רוצים

לצד סייבר, בלוקצ'יין, NFT ומטאוורס – הבאזוורד החם ביותר בעולם הטכנולוגיה הוא AI. אבל בשביל שמוצר שמתבסס על AI בכלל ירוץ, הוא חייב להיות מאומן על מאגר מידע גדול ומדויק, וזה אומר שיש מדענים שצריכים לאסוף, לתייג, להנדס ולהתאים אותו, וזה לוקח המון זמן. למען האמת, לפי סקר של Datagen עצמה שכלל מאות מהנדסי ומהנדסות Computer Vision, כ-99% מהם היו שותפים לפרויקט שעוכב או נגנז בדיוק בגלל הבעיות הללו.

אז במקום לקנות מאגרים שעשויים להיות מוטים, או לא מתאימים למוצר שלכם, דאטהג'ן רוצה שתשתמשו במידע סינטטי, שהוא בעצם מעין רנדומייזר של פרצופים שונים ומגוונים עם כל מיני מאפיינים, רק שאתם יכולים לשלוט בו. אופיר צ'קון, מייסד-שותף ומנכ"ל Datagen הסביר בראיון לגיקטיים כי בתחילה, החברה היא זו שייצרה את המידע הסינתטי על פי בקשת הלקוחות, אך שנת 2021 הייתה שנת מפנה עבור החברה, שבעצם הפכה את המוצר שלה לפלטפורמת ה-Self Service הראשונה בעולם למידע סינתטי. לדבריו, כל הלקוחות הקיימים של החברה הועברו למערכת בשירות עצמי, והדבר מאפשר לדאטהג'ן להוסיף עוד מאות לקוחות לפלטפורמה שייצרו בעצמם את הדאטה המתאים להם. "זה יושב אצלם לחלוטין וזה הפך לכלי פיתוח לכל דבר ועניין למהנדסי Computer Vision ו-AI".

הפיתוח של Datagen סיקרן אותי לא מעט, אז צ'קון נתן לי הצצה למערכת עצמה, ואין לי יותר מדי ספק שהיא עונה על המונח "שירות עצמי", כיוון שאם אני, שלא מתעסק עם DS ביומיום, מצליח לתפעל אותה – אז כנראה שהיא באמת נגישה. לפי ההדגמה שראיתי, אתם פשוט יכולים לקבוע את התפלגות הדמויות במאגר שלכם על פי טווחי גילאים, מגדר ומוצא אתני, כשכל מה שאתם צריכים לעשות זה פשוט לסמן באחוזים את הקטגוריות השונות. לאחר מכן אתם יכולים לקבוע, שוב באחוזים, כמה מהדמויות גם יקבלו תוספות שונות כמו זקנים, משקפיים, כובעים, מסיכות פנים ובסופו של דבר גם יכולים לקבוע את זווית המצלמה, או המצלמות.

למתקדמים, יש כאן גם אפשרויות לבחירת האנוטציות וה-Metadata שיתלווה לתמונות, כמו למשל נקודות עניין, מפות עומק, מסגרות ועוד. "זה ממש כמו לקבל תמונות מתויגות שאפשר להזין מיד לאלגוריתמים שלהם", מסביר צ'קון. בסופו של דבר, המחיר יקבע לפי המטבע של החברה שנקרא DGU, שלפי צ'קון, בעצם מייצג את כמות השעות שהמערכת צריכה לפעול כדי לייצר את המאגר שביקשתם. אחרי שהעיבוד יסתיים, תוכלו להוריד את המאגר מהאתר ולהתחיל לאמן את המודלים שלכם. "אפשר גם לייצר Data Lake, שבו כל הזמן קיים המידע שרכשת ואספת, והמידע זורם לתוך המערכת או לתוך המודל ולא מאמן על Data Set דיסקרטי".

התחרות גוברת, אבל זה לא מפחיד אותם

שנת 2021 לא הייתה משמעותית רק עבור Datagen, אלא עבור תחום הדאטה הסינתטי כולו. ב- GTC 2021 של NVIDIA, הציגה ענקית המעבדים הגרפיים את Omniverse Replicator, שמאפשר יצירת דאטה סינתטי ב-3D וב-4D – מה שגרם לי לתהות האם זהו איום מוחשי על קיומה של Datagen. כששאלתי את צ'קון על המקרה הזה, הוא לא היה נראה מרוגש במיוחד.

"NVIDIA מפתחת כלים שמאפשרים לייצר דאטה סינתטי בקלות יותר גדולה אם יש לך הרבה משאבים, ואז אם אתה חברה גדולה אתה תיקח אותה לסטאק שלך. בפועל, NVIDIA לא מציעים היום אסטרטגיה למוצר שלם שמייצר תשתית מלאה לייצור דאטה סינתטי. זה מה שאנחנו עושים. רוב החברות צריכות דאטה ולא רוצות להתעסק במה שמסביב, הן ירצו לקנות דאטה ממש טוב שתפור לבעיה שלהן ואנחנו באים אליהן ומציעים לאפשר ייצור מקצה לקצה בכמה כפתורים", כך לדברי צ'קון.

העבודה הבאה שלכם מחכה לכם בגיקטיים אינסיידר העבודה הבאה שלכם מחכה לכם בגיקטיים אינסיידר כנסו לראות את כל המשרות השוות בהייטק

בשנתיים האחרונות ראינו לא מעט ענקיות טכנולוגיה מכות על חטא ומסבירות שהאלגוריתמים שלהן אכן היו מוטים. כך למשל, גוגל שמה דגש רב על כך שמצלמת ה-Pixel 6 אומנה בצורה טובה יותר מבעבר על סוגי עור כהים, וכעת מספקת גווני עור מדויקים יותר ממצלמות אחרות. הדבר לרוב נובע מהטיה במידע, בין אם היא מכוונת או לא. אבל ההטיה הזאת היא לא סתם מושג "פרוגרסיבי" עלום, אלא בעיה שמתרחבת הרבה מעבר למגדר וגזע.

"Bias (הטיה) הוא לא רק נשים מול גברים או לבנים מול שחורים", מסביר צ'קון. "זה כל יחס בין פרמטרים שונים בתוך המודל. המודל שלי למשל יכול לזהות יותר שולחנות אדומים מירוקים, וזה גם Bias. זה משפיע באופן ישיר על הביצועים של המודל שלך. המודל יעבוד למשל יותר טוב בקיץ כי הוא אומן בקיץ. כל העולם הזה ניתן ל-Fine Tuning (בעזרת המערכת של Datagen, ע.ב), שאי אפשר לקבל בשום מקום אחר".

וכן, יש גם "תאונות עבודה"

כיום, Datagen מעסיקה יותר מ-85 עובדים במשרדיה, ועובדת עם 3 מתוך 5 ענקיות הטכנולוגיה וחברות Fortune 500 נוספות. אבל למרות כל הנתונים המרשימים, הייתי חייב לשאול את צ'קון האם המערכת שלהם גם מפשלת לפעמים. אחרי הכל, מדובר ברנדומייזר. ואכן, מדי פעם המערכת פולטת כל מיני אנומליות משונות של פרצופים מעוותים והבעות מוזרות.

קצת תאונות עבודה ב-Datagen

לטענת צ'קון, ממש כמו שיש בעולמות הקוד CI/CD, כך הם עובדים גם בעולמות הרשתות. "כמו לפני שאתה עושה Deployment, אתה מרים אלפי טסטים, אז אנחנו עושים את זה על ידי אימון רשתות Inhouse שמבוססות על דאטה סינתטי, ובודקים אותן על דאטה אמיתי. כך אנחנו תופסים את מרבית השגיאות לפני שהן מגיעות לפרודקשן". לטענתו, אגב, אם תאמנו את המערכות שלכם גם על פרצופים שבהם האף לא במקום, או ההבעה לא אנושית, רמת הדיוק של המערכת שלכם דווקא תעלה. "זה קונספט טוב לדאטה סינתטי כך שגם אם נייצר דברים מוזרים ומעבר לגבול הסביר, עדיין זה יגרום לרשת לזהות את זה ולא יהרוס את הפלטפורמה של הרשת".

עידן בן טובים

נולד עם ג׳ויסטיק ביד. יש לו הרבה יותר מדי גאדג׳טים והרבה פחות מדי זמן פנוי כדי לשחק עם כולם. בעל פטיש לא מוסבר לביצוע קליברציות לסוללות של מכשירים. כשהוא לא עסוק בלכתוב על טכנולוגיה, הוא אוהב לדבר עליה, והרבה

הגב

5 תגובות על "הצצה למערכת הדאטה הסינתטי הישראלית שגייסה עכשיו 50 מיליון דולר"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
Pupik
Guest

פתרון מעולה למציאות חדשה של אימון רשתות.
נשאר רק לפתוח גישה למשתמשים קטנים כמוני ולא רק חברות ענק ואז נוכל כולנו לאמן רשתות בקלות.

לא יאומן
Guest

50 מיליון על אלגוריתם ליצור פנים שהוא חינמי וניתן להתאים אותו בקלות לכל צורך? כמו כן האימון על פרצופים הוא טריוויאלי. היום האתגר הוא לאמן על בעיות קשות הרבה יותר, כמו תנועה, גוף מלא, רכבים, שפות. כנראה מכרו למשקיעים שהם יתמכו בכל זה בעתיד. אגב, הייתם משווקים מוצר שאומן רק על דטה סינטתית? ז"א זה פותר בעיה צרה מאוד ולא נותן מענה כללי

אמיר סימן טוב
Guest

מעניין מאוד. הערה: דאטה בעברית זה נתונים ולא מידע שזה אינפורמציה.

אמיר סימן טוב
Guest

מעניין מאוד. הערה: דאטה בעברית זה נתונים ולא מידע שזה אינפורמציה.

אלגוריתמאי
Guest

הם מאפשרים לייצר רק דאטה של פרצופים?
מה גודל השוק של זה?
נשמע שהם פשוט פיתחו והנגישו רשת gan שמייצרת פרצופים.
קשה לי להאמין שחברה רצינית תסתמך על זה בלבד, אולי רק בשלב הpoc.
אם על זה הצליחו לגייס 50M אז כל הכבוד להם.

wpDiscuz

תגיות לכתבה: