גוגל מוסיפה שרות זיהוי טקסט לגוגל דוקס

אפשרות חדשה בגוגל דוקס: זיהוי טקסט בתמונות ומסמכי PDF. בלי עברית, עם ביצועים ממוצעים וחוסר באפשרויות התאמה אישית, שרות זה מתאים אולי לסטודנטים ומשתמשים ביתיים, אך אינו מוכן להחליף את ה-OCR המסחרי

לא פעם אנחנו נתקלים בטקסט מודפס שהיינו רוצים לצטט בלי להקליד יותר מדי או טקסט הנמצא בקובץ תמונה או PDF שנסרק שהיינו רוצים לערוך, אך למרבה הצער, מירב שרותי ותוכנות זיהוי הטקסט (OCR) הינם בתשלום. בשנה שעברה החלה לערוך גוגל ניסויים בזיהוי טקסט, בין היתר כי כבר השתמשה בטכנולוגיה לסריקת הספרים עבור מאגר Google Book. אתמול (ב’) הופיעה בשרות יישומי המשרד של גוגל, גוגל דוקס, אפשרות חדשה להעלות קבצי PDF או תמונות שגוגל תהפוך לטקסט עריך.

אל תזרקו את תוכנת ה-OCR

למרבה הצער, בבדיקה שטחית נראה שהשירות אינו בשל להחליף את תוכנות זיהוי הטקסט המסחריות, וכן לא נראה שקיימת תמיכה בזיהוי טקסט בעברית. בעת העלאה של קבצים עם טקסט באנגלית, הזיהוי הטוב ביותר התקבל בקבצי PDF ולא בתמונות, וגם רק כאשר מדובר בטקסט שחור על גבי לבן וללא איורים. בנוסף, בתהליך זיהוי הכתב מתבטלים כל העיצובים המוחלים במסמך והתוצאה המתקבלת היא טקסט בגופן וגודל אחידים.

זכויות היוצרים לאן

בעוד לא נראה ששרות זה יספק מענה עבור משתמשים ארגוניים, עבור המשתמש הביתי הממוצע מדובר בתוספת מבורכת, לפחות עבור אלו מאיתנו המתעסקים תכופות עם מסמכים בשפה האנגלית. אחת השאלות העולות עם הופעתו של שרות זה, היא השמירה על זכויות יוצרים של ספרים, מגזינים וטקסטים מדעיים. בעוד בעבר לקבצי ה-PDF היה ייחוד לעומת מסמכי אופיס בכך שלא ניתן היה לשנותם עם סגירת הקובץ, כעת ניתן לעשות זאת, גם אם לא באופן ישיר, באמצעות השרות החדש של גוגל.

כעת יוכל כל משתמש, בעצם, לצלם או לסרוק מידע מודפס ובקלות רבה להפוך אותו לקובץ הניתן לעריכה ויתרה מכך, כזה שמאפשר חיפוש בתכניו ואיכות גבוהה יותר של תצוגה והדפסה מאשר הפלט של סריקה רגילה. אם נניח שהשרות ישתפר ושפות נוספות יתווספו אליו, כל אחד יוכל לחלוק עם חברים ספר שרכש או אפילו את עיתון הבוקר בתצורה נוחה שתאפשר איתור מידע, שמירת סימניות ועוד, אך תאלץ את בעלי הזכויות לחפש אמצעים להגנה על תכניהם מפני העתקה והפצה באופן פיראטי.

עדכון: מגוגל נמסר שנכון להיום השפות הנתמכות הן אנגלית, צרפתית, איטלקית, גרמנית וספרדית ובמהלך השנה מקווים בחברה להוסיף שפות נוספות. כמו כן, פרטים נוספים על השרות ניתן למצוא בבלוג גוגל דוקס.

אילנה ברודו

אשת המילה הכתובה וחובבת טכנולוגיה. גרפומנית, גיקית, גיימרית, בשלנית, ואפילו משוררת לעת מצוא. בימים עיתונאית רשת נעימת הליכות ובלילות לוחמת צדק דיגיטלי חסרת רחמים ובעלת לשון מושחזת היטב. לשעבר כתבת טכנולוגיה ב-ynet ו-walla!.

הגב

רוצה להיות הראשון להגיב?

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

wpDiscuz

תגיות לכתבה: