חוקרים ישראליים פיתחו כלי שמאמ”לק טקסטים ארוכים, אז נתנו לו את הכתבה הזו

שלושה חוקרים מאוניברסיטת בן גוריון פיתחו כלי שמתמצת טקסטים ארוכים ואף יכול לפעול בשפות שונות. איך הוא עובד, מתי הוא יגיע לקהל הרחב ואיך הוא מתמצת את הפרק הראשון של ”הארי פוטר”?

אין ספק שהאינטרנט הוא מההמצאות המבריקות של האנושות, אבל הוא הביא איתו גם כמה רעות חולות, והבולטת בהן היא העומס של המידע. אחת הדרכים להתמודד עם כל כך הרבה מידע שמגיע אלינו בזמן קצר מדי היא אמ;לק (הגרסה העברית ל-TL;DR או “ארוך מדי לא קראתי”, אם במקרה, אתם אנשי מאדים). כתבות ארוכות, כתבות סגורות למנויים ואפילו פוסטים ויראליים בפייסבוק שתופסים אותנו בזמן לא טוב – כשמישהו מאמ;לק לנו דברים אנחנו פשוט נהיים שמחים יותר, מרגישים שאנחנו עדיין בעניינים ומצליחים להתגבר על ה-FOMO.

עכשיו תארו לעצמכם שלא הייתם צריכים לבקש מאף אחד לאמלק לכם, שהייתם יכולים להכניס טקסט לתוך “מכונה” והיא הייתה קוראת עבורכם את הטקסט ויוצרת לכם תקציר ענייני ותמציתי. נשמע דמיוני, נכון? אז, לא. ומי שאחראי על המכונה הזו הם כמה חוקרים מאוניברסיטת בן-גוריון בבאר שבע ו-Technologies BGN, חברת מסחור הטכנולוגיה שלה.

“מחפשים שותפים לפיתוח המוצר”

פרופ’ מרק לסט, ד”ר מרינה ליטבק וד”ר מנחם פרידמן, מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון, פיתחו שיטה חדשה בשם MUSE (קיצור של “מחלץ משפטים רב-לשוני”), המספקת תקצירים של טקסטים בשפות שונות. אמנם קיימות שיטות אוטומטיות אחרות לתמצות טקסטים, אך רובן תלויות שפה, כלומר האלגוריתמים שבבסיסן צריכים לעבור אימון מוקדם על כמויות גדולות של טקסט. הכלי שפיתחו השלושה יכול לתמצת טקסטים אוטומטית ואינו תלוי שפה.

איך זה עובד? MUSE פועל על בסיס אלגוריתם שמדרג את המשפטים במסמך ובעזרת מאפיינים סטטיסטיים של המשפטים, וניתן להחיל אותו על כל שפה, כדי לחלץ משפטים בעלי דירוג גבוה לכדי תקציר. בניסויים שערכו החוקרים בכלי עלה כי לאחר אימון ראשוני של האלגוריתמים על מאגר מוכר של תקצירי מסמכים, שבו כל מסמך מלווה במספר תקצירים מעשה ידי אדם, התוכנה אינה חייבת לעבור אימון מחדש על תקצירים ידניים בשפות חדשות, ואותו מודל לדירוג משפטים יכול לשמש באותו הטקסט בשפות שונות.

את השיטה אפשר ליישם על מאמרים, כתבי עת, מסמכים וטקסטים אחרים או עבור משתמשי קצה כמו ספריות, מכוני מחקר או מנועי חיפוש כלליים, ובינתיים היא נבדקה בתשע שפות: אנגלית, עברית, ערבית, פרסית, רוסית, סינית, גרמנית, צרפתית וספרדית. איכות התמצות שלה נבחנה עד כה בארבע שפות – אנגלית, עברית, ערבית ופרסית – והראתה דימיון רב לתקצירים שנעשו על ידי בני אדם.

“תמצות מסוג זה, שבוחר את המשפטים הרלוונטיים ביותר מתוך הטקסט על ידי דירוגם, חיוני כדי לייצר במהירות סיכומים של כמויות טקסט גדולות בשפות שונות”, אומר לגיקטיים פרופסור מרק לסט. “כלי זה יהווה תוספת רבת ערך ליכולת שלנו להפיק תועלת מהכמויות העצומות של טקסט שזמינות באופן מקוון”, מוסיף צפריר לוי, סמנכ”ל פיתוח עסקי ב-BGN Technologies, “הגשנו בקשת פטנט עבור הטכנולוגיה, ואנחנו מחפשים כעת שותפים פוטנציאליים להמשך הפיתוח והמסחור של ההמצאה”.

פרופ’ מרק לסט. תמונה: דני מכליס

הטכנולוגיה עדיין נמצאת במסגרת האקדמיה ואינה זמינה לציבור הרחב, ואכן הממשק עדיין די מסורבל: אי אפשר לעלות טקסטים של יותר מ-10,000 מילים ולא כל הפונקציות פעילות. מאידך הוא מאפשר להגביל את כמות המילים, התווים או הפסקאות, כך שניתן לשלוט על אורך התמצות לפי העדפותיכם. אנחנו בגיקטיים העברנו בו כמה טקסטים איקוניים שכל גיק מכיר, כדי שתוכלו לשפוט בעצמכם את איכות התמצות. מוכנים?

את הפרק הראשון של “הארי פוטר ואבן החכמים” לא ניתן לתמצת במלואו בגלל מגבלת המילים, אבל את תחילת הפרק MUSE מתמצת כך:

“מר דַרסְלי היה מנכ”ל של חברה בשם גְרַאנִינְגְס לייצור מקדחות.
הוא היה איש גדל-ממדים, בשרני, וכמעט נטול צוואר – למרות שדווקא היה לו שפם שמן למדי.
זנבה של החתולה זע בעצבנות ועיניה הצטמצמו”.

תמונה: צילום מסך

כפי שניתן לראות, הכלי ממרקר את המשפטים שאותם דירג כחשובים, כדי שתוכלו לדעת מאילו חלקים של הטקסט נלקח התמצות.

עברנו לדוגמה הבאה – הפחות גיקית, וממנה עולה שאם MUSE היה קיים ב-1948, אולי לא היה לנו ויכוח על מהי ישראל – מדינה יהודית או דמוקרטית. בתמצות מכונה, בהגבלה של 50 מילים זה פשוט נון אישו:

מדוע MUSE החליט דווקא על המשפטים האלה, אפשר לראות בדיוק כיצד האלגוריתם דירג אותם:

MUSE כאמור עובד בכמה שפות. בהגבלה של 30 מילים לטקסט הפתיחה של “מלחמת הכוכבים”, התמצות נראה כך:

ואם אין לכם כוח לקרוא את כל הכתבה הזו, או שאתם מחובבי הרקורסיה, הזנו לתוך הכלי את הכתבה והנה היא ב-30 מילים:

 

Avatar

רונה חזקיה

עורכת וכותבת על כל תחום חוץ מכדורגל. מנהלת מערכת יחסים אובססיבית עם השפה העברית ובטוחה שדווקא הכי מצחיק זה להגיד בטטה. כתבת מגזין ומנהלת התוכן המסחרי של גיקטיים

הגב

15 תגובות על "חוקרים ישראליים פיתחו כלי שמאמ”לק טקסטים ארוכים, אז נתנו לו את הכתבה הזו"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
Avv
Guest

אם החוקרים מבן גוריון, למה בפינה השמאלית החלון של התוכנה יש סמל של מכללת סמי שמעון? ( SCE )

Eugene Krapivin
Guest

כי את הקוד מקור של מערכת הסיכום והאימון של האלגוריתם כתב מהנדס מבצע שמעון (אני)

ירין
Guest

ואף מילה על הטכנולוגיה שמאחורי הכלי שהם “פיתחו”? ממש במקרה יש עשרות כלים דומים ששוחררו השנה, הודות לפריצות דרך במחקר בעיבוד שפה טבעית. למתעניינים ממליץ לקרוא על transformers כמו: GPT-2, BERT וכו’.

nocgod
Guest

קוראים לאלגוריתם והשיטה שהם השתמשו בה MUSE תחפש על זה מאמרים באינטרנט.

כרובי
Guest
לא משהו. כשמתמצתים בצורה טובה, לא אמורים לקחת X משפטים משמעותיים כמו שהם ולוותר על היתר. חלקי משפטים הם לעיתים קרובות העיקר, המשפטים השלמים (גם אם הם מקבלים דירוג גבוה יותר) מכילים גם “זבל”, בעוד שמשפטים אחרים שלא קיבלו דירוג גבוה, מכילים גם הם מילים ספציפיות חשובות. המטרה בתמצות היא ליצור משפטים חדשים שמתמצתים את הנושא, ולעשות זאת מתוך הבנה של ההקשר הרחב יותר, לא לעשות קופי-פייסט למשפטים ספציפיים שבחרנו בשלמותם. לדוגמא בתמצות של הארי פוטר, היה ניתן להשמיט בתמצות את שם החברה ליצור מקדחות (גראנינגס), מאחר ושם החברה לא משחק עוד תפקיד מבחינת הסיפור בהקשר הרחב של הספר. ולהכניס… Read more »
צכי
Guest

זה רק אני או שזה מתמצת ממש גרוע! לאיש שפם שמן? ברצינות??

יוסי
Guest

לא נראה שזה יעזור לגבי כתבות סגורות למנויים מאחר שהטקסט המלא מן הסתם חסום ולכן לא ניתן לתימצות חיצוני.

פיקסל 1
Guest

לפעמים אתם פשוט מגה חננות.
לצומת לבכם.

יוני
Guest

כותבים “לתשומת”, וכן, זה אתר של חננות, ואם אתה פה, כנראה שגם אתה כזה

יפתח
Guest

היי ראשית מרינה ליטבק היא ממכללת סמי שמעון. היא הייתה מרצה שלי וגם המנחה שלי בפרויקט גמר. ואכן תחום העיסוק שלה זה פיתוח כלים לניתוח טקסטים וNLP. בזה גם עסקנו בפרויקט גמר.

zyd
Guest

הצלחתם להצחיק אותי מה שקורה לעיטים נדירות אוניברסיטת גוריון אתם בדיחה גרועה!!!

nope
Guest

לעיתים, אם אתה כבר יורד על מישהו, תעשה את זה נכון. תתחיל בלעבור כיתה ב’.

הקצרן
Guest

אמ”לק , אבל נשמע מעניין…

דני
Guest

חבל שלא מדברים על הטכנולוגיה שמאחורי הרעיון, הרי זה כל העניין בגיקטיים, שאלה למפתחים, האם השתמשתם באלסטיק סירץ?

Mark Last
Member

ניתן לקרוא פרטים על הטכנולוגיה במאמר הבא:
https://link.springer.com/article/10.1007/s10791-012-9210-3

wpDiscuz

תגיות לכתבה: