כך הצלחנו להפוך את עבודת התיוג לפחות מתסכלת ויעילה בהרבה

תהליך תיוג נתונים הוא ארוך, איטי ועשוי להכיל שגיאות. במהלך פיתוח המוצר שלנו זיהינו את הכאבים הכי גדולים בעבודה – והשתמשנו באלגוריתמיקה כדי לייצר 4 כלים ששיכללו את התהליך בצורה משמעותית

איך הופכים את תהליך התיוג למהיר, יעיל ואמין יותר? (צילום: Dreamstime)

מאת אורי כץ, Aquant ,Data Scientist

מרבית המוצרים והשירותים המודרניים שבהם אנחנו משתמשים מבוססים בינה מלאכותית (Artificial Intelligence) ולמידת מכונה (Machine learning). מארוחת הצהריים והמונית שהזמנתם ועד המכונית החדשה שקניתם, אימות הזהות בתהליך תשלומים והרשמה, שירותי קופת חולים ועוד. כמעט כל פיתוח טכנולוגי חדש נעזר, גם אם חלקית, ברכיבים אלגוריתמים לומדים.

שני גורמים מרכזיים הביאו לגידול המואץ בתחום: שיפור יכולות החומרה והתפוצצות היקפי הנתונים. כמות הנתונים ׂהגולמיים שנאספים ונאגרים בכל רגע נתון רק גדלה – כל פוסט ברשת חברתית, ביקורת על קומקום באתר קניות, תמונה ממצלמת אבטחה או אפילו צילום CT במרפאה, נאספים למאגרי נתונים גולמיים. בהמשך הדרך הנתונים הופכים לספר הלימוד של אלגוריתמים.

האתגר הגדול והלא זוהר של תיוג הנתונים

אז איך הופכים טקסט חופשי לשורה בטבלה? בעזרת תורה שלמה ולא זוהרת של תיוג נתונים (Data Labeling/Data Annotation). חישבו על הסיטואציה הבאה: מאגר נתונים של בית חולים אגר עשרות אלפי תיקים רפואיים של מטופלים מהעשורים האחרונים. בכל תיק רפואי ישנם טקסטים שנכתבו על ידי אנשים שונים, בתפקידים שונים ובתקופות שונות. אם זה לא מסובך מספיק, בתיק הרפואי יש מידע רב בפורמטים שונים: מרשמים, צילומים, תוצאות בדיקות והפניות.

כדי להשתמש בנתונים הללו, לדוגמה למשימות איסוף סטטיסטיקות על מחלות, או כדי לפתח מודל המדרג רמות סיכון של חולים, נצטרך להעביר את הנתונים למצב טבלאי (Tabular), כך שבמקום טקסט חופשי נקבל כל נתון בשדה המתאים לו: שמות מחלות, שמות תרופות, גיל, מגדר, עיר מגורים וכו'.

חברות רבות מקימות צוותים ייעודיים תוך ארגוניים, או נעזרות בשירותי חוץ של חברות המתמחות בתיוג נתונים, בארץ או בחו"ל. ככל שמורכבות הנתונים עולה כך גובר האתגר ועלותו – חברות המתעסקות בנתוני דימות רפואיים זקוקות לתיוג צילומים על ידי מומחי פענוח רדיולוגי, וחברות המתעסקות בנתונים משפטיים זקוקות למתייגים-משפטנים. כל חברה הזקוקה לתיוג נתונים מביאה איתה אתגרים שונים – לכל מכשיר יש את המושגים שלו ולכל תעשייה וחברה יש את השפה שלה. לכן תיוג הנתונים הגולמיים מצריך התערבות אנושית כדי לחלץ מהם את הערכים הנחוצים לאימון מודלים למשימות מורכבות יותר. בשל העלות של מערך שכזה, היינו רוצים לשאוף לכמות המינימלית של נתונים מתויגים, שיספיקו לצורך אימון של מודל למידת מכונה, מבלי לפגוע באיכות ביצועיו.

כך תשכללו את תהליך התיוג אצלכם

אז איך הופכים את תהליך התיוג למהיר, יעיל ואמין יותר? כשפיתחנו מוצר מבוסס AI העוסק בחיזוי תקלות ופתרונות אצל חברות שירות, נתקלנו בלא מעט כאבים שאילצו אותנו לחשוב מחוץ לקופסה כדי לפתור אותם ולשכלל את השיטה ואת תהליך התיוג. הנה הדברים שלמדנו בדרך:

1. האדם שבמכונה ינצח. כדי להשיג נתונים איכותיים יש צורך באנשים שהוכשרו למשימה, אבל ניתן לעזור להם בעזרת גישת human-in-the-loop. תהליך התיוג נתמך בכמה אלגוריתמים שמאיצים את התהליך ומספקים מידע בזמן אמת על ההחלטות המתקבלות ועל איכות התיוג הצפויה.

2. מה לתייג קודם? במקום לתייג דגימות באופן אקראי, פיתחנו מודל דירוג (Ranking) על סמך תיוגים קודמים שביצענו. המודל למד לזהות דגימה שיש לה פוטנציאל להכיל אינפורמציה חדשה שנרצה לתייג. כך, מבין מאות אלפי הדגימות החדשות, המתייג פוגש קודם בדגימות הכי מעניינות. דירוג הדגימות הביא לעלייה משמעותית באיכות הדגימות המתויגות ובגיוון שלהן, דבר המאפשר כיסוי נרחב יותר של הנתונים עם פחות דגימות מתויגות.

3. מערכת המלצות תיוג. בהינתן דגימה חדשה, המערכת שפיתחנו מציעה למתייג אפשרויות תיוג ברמות ודאות שונות. רמת הוודאות הגבוהה ביותר תתקבל כשהתיוג כבר ברור למודל ואין צורך בתיוג נוסף. רמת ודאות נמוכה יותר תתקבל עם הצעה לתיוג, על סמך הופעה של רצפים מתיוג בפרויקטים אחרים. כשלמערכת אין שום מקרה דומה להסתמך עליו, היא תנסה לזהות מהו רצף המילים או המושגים הכי משמעותי בטקסט, ותציע אותו בתור אפשרות לתיוג. בשיטה הזאת המתייג יכול להסתמך על עבודות של מתייגים אחרים ועל הידע שנצבר בחברה בזמן אמת. כך משך העבודה מקוצר והתיוג איכותי יותר.

4. טיפול בשגיאות וטיוב הנתונים. כבר הזכרנו שמשימת התיוג איננה זוהרת ומצריכה עבודה מרוכזת ומאומצת, שמערבת לימוד של עולם התוכן תוך כדי תנועה מהירה. גם המתייג המנוסה ביותר יבצע שגיאות. כדי למזער את מרווח הטעות, המערכת שפיתחנו מתריעה בפני צוות המתייגים כשהיא מזהה שגיאות אפשריות. לדוגמה, ניקח את התיוגים "המכשיר דולף" ו"המכשיר מטפטף". ברור לנו כקוראים שיש דמיון סמנטי (Semantic similarity) גבוה ביניהם, ולכן המערכת תמליץ למתייג להתייחס אליהם כאותו המקרה. המערכת יודעת לזהות מספר רב של סוגי שגיאות תיוג ובכך להתריע למתייג כשהן מתרחשות.

חברות רבות המעסיקות צוותי תיוג יכולות יחסית בקלות להטמיע אלגוריתמיקה תומכת שתייעל משמעותית את התהליך, ותהיה מותאמת לתחום ולאתגרים הספציפיים. תחום ה-Active learning פופולרי מאוד ובשנים האחרונות מחקרים רבים הראו שיפורים גדולים גם בעבודה עם טקסטים, תמונות, וידאו וסוגי נתונים שונים. איסוף של נתונים איכותיים הוא ערובה לביצועים טובים של מודלי למידת מכונה במשימות ההמשך.

הכתבה בחסות Aquant

הסטארטאפ Aquant פיתח פלטפורמה מבוססת בינה מלאכותית לניהול ארגוני שירות באמצעות עיבוד שפה טבעית (NLP) ולימוד מושגים יחודיים של כל ארגון. החברה מסייעת להם לעבד תובנות הנחוצות לעסק שלהם ומאפשרת להם לקבל החלטות יזומות, מונחות נתונים, לזהות לקוחות בסיכון, להבין את ביצועי המכונות, לזהות סיכונים רגולטוריים ועוד. הטכנולוגיה של החברה, מבוססת AI , סוגרת את פערי הידע הבין דורי על ידי מתן גישה לכלל העובדים למידע שהונפק בעבר במאגרי מידע או שהוחזק במוחם של טכנאים ותיקים.

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

8 תגובות על "כך הצלחנו להפוך את עבודת התיוג לפחות מתסכלת ויעילה בהרבה"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
KEY
Guest

כתבה אינפורמטיבית מעולה.
צריך באתר שלכם עוד חומר ומידע מעמיק בתחומים רבים ושונים בדומה למתודולוגיה שמוצגת בכתבה..

Data eng.
Guest

מאד מעניין , יש היום חברות שנותנות את הפתרון הזה (בחירת דאטא, תיוג אוטומטי, חיבור למתייגים אנושיים) בצורה SAAS.
Dataloop לדוגמא

מתכנת שמחפש מערכת תיוג
Guest
מתכנת שמחפש מערכת תיוג

תעדכנו את הSSL שלכם..
אתם not secured והסיכוי לאשר ונדור כמוכם אצלנו בארגון הוא אפסי

Screen Shot 2022-01-05 at 15.22.29.png
מתכנת שהוא לא secured
Guest
מתכנת שהוא לא secured

הם לא חברת תיוג, זאת מערכת פנימית לצרכים שלהם

El Gordo
Guest

אתה באתר הלא נכון אלוף.

Software engineer
Guest

כתבה טובה, הורידה לי את הערפל של למידת מכונה. נראה שבסוף זה לא כזה פשוט ויש הרבה עבודה שצריכה להעשות מאחורי הקלעים.

תמוס עמם
Guest

למה הלוגו שלכם כמו הלוגו של מטה אבל עם עקמת?

Roy
Guest

יש לא מעט חברות שנותנות שירות כזה ההבדל הגדול, אין שום סיבה לבנות לבד אופרציה כזאת.
החברות מתחלקות ל2:
חברות פלטפורמה – אתה רוכש פלטפורמה ובונה צוות אופרציה שמנהל את המתייגים
חברות solution – אתה נותן דטה מקבל אותו מתיוג באיכות גבוהה- הרבה מאוד עלויות עקיפות וכבויות שלא רואים בהתחלה – חוק אצבע, עלות הפלטפורמה היא 5% מכלל עלות הפרויקט (עלות ישירה ועקיפה)
אחרי שבחנו את כל האפשריות והתנסנו בחברות פלטפורמה- החלטנו לבחור בחברת solution ואנחנו מאוד מרוצים מההחלטה.
אנחנו בחרנו ב tasq.ai

wpDiscuz

תגיות לכתבה: