גוגל מעדכנת את אלגוריתם החיפוש

אחד העדכונים המדוברים בימים האחרונים יצא לדרך. גוגל החלה להילחם בתוצאות החיפוש השגויות ובאתר זבל.

גוגל החלה מיישמת השבוע חלק מהעדכונים לאלגוריתם דרוג האתרים בתוצאות החיפוש של מנוע החיפוש. העדכון אמור לתת מענה לבעיה עימה גוגל מתמודדת לאחרונה ובה אתרי ספאם מעתיקים תכנים מאתרים לגיטימיים וזוכים לדרוג גבוה יותר מהאתרים שמהם הם העתיקו את התוכן.

רק בשבוע שעבר כתבנו על כך שאנשי גוגל מתכננים לנקוט במספר צעדים במטרה לטפל בבעיה. במסגרת הטיפול, אחד הצעדים המשמעותיים הוא עדכון האלגוריתם של מנוע החיפוש במטרה להבחין בין אתרים עם תכנים מקוריים ותכנים המעתיקים את התכנים.

חצי אחוז

מאט קאטס, אחד ממנהלי הפיתוח בצוות מנוע החיפוש עדכן בסוף השבוע האחרון כי יישום העדכון צפוי להשפיע על כ-2% מהחיפושים בגוגל. אבל, רק 0.5% מהחיפושים הם כאלו שבהם אנשים באמת צפויים להרגיש את השינוי. כאשר מהנדס מגוגל מדבר על האחוזים, צריך לזכור שמאחורי האחוזים האלה עומדת כמות גדולה של תוצאות חיפוש. לדברי קאטס, השינוי שהוכנס לתוקף יביא לכך שבתוצאות החיפוש שלנו נוכל למצוא בדירוגים הגבוהים את האתרים המכילים את התכנים המקוריים, ולא את האתרים שהעתיקו תוכן מהם, בין אם מדובר בהעתקה חלקית או העתקה מלאה של התוכן.

הוא גם התייחס בדבריו לסוגיה של חיפוש ממוקד לנושאים הקשורים בפיתוח וביקש את עזרת משתמשי Hacker News בנושא. המשתמשים באתר ידעו להציג למאט סוגים שונים של שאילתות שבוצעו על-ידם ונמצאו כ”נגועות” במיוחד בתוצאות זבל ולדברי קאטס, גוגל עשתה שימוש בנתונים הללו כדי לבצע אופטימיזציה מחדש לאלגוריתם המציג את התוצאות בנושא.

מגמת העלייה של אתרי ספאם בתוצאות החיפוש, שאפיינה את החודשים האחרונים, הביאה את אנשי גוגל להצהיר על צעדי מניעה וגם על פרסום חלק מהם. השינויים בתוך קרבי מנוע החיפוש רק מתחילים.

השלב הבא

בשלב הבא גוגל תצטרך להתמודד עם בעיית הכפילויות הלגיטימיות. כיצד האלגוריתם המעודכן שלה מתמודד עם טקסטים שונים שמקורם באותו טקסט מקור יחיד. למשל, ישנה מסיבת עיתונאים ובמסיבה יושבים עשרים בלוגרים. אותם עשרים בלוגרים כותבים על בסיס אותן עובדות ועל בסיס אותם דברים שנאמרים במסיבת העיתונאים. כך מאוד סביר לצפות שהדיווחים מאותה מסיבת עיתונאים יהיו דומים, ברמה מסוימת. אותו עדכון אלגוריתם יצטרך לוודא שהוא לא מבטל את הדרוג של אחד מאותם בלוגרים כי הוא חושב שמישהו מהם העתיק תוכן אחד מהשני.

ישנם כבר אתרים שמרגישים את התיוג השגוי הזה, ואף ציינו זאת בהערות לפוסט. אחת מהן היא Kari O’Brian והאתר שלה. בין הררי התגובות שאנשי פרסמו שם, אחד מהם שאל שאלה לגיטימית, שיכולה אולי לעזור בחלק מהמקרים; האם גוגל מתכננת לייצר מערכת שתקבל מהציבור קלט בכל הקשור לתיוג שגוי של אתרים? כיום אחת האפשרויות הישירות היחידות העומדות לרשותו של וובמסטר, או כל אחד עם אתר, היא לחפש במאגר השאלות והתשובות של גוגל, ולאחר מכן להציג שם שאלה, אם היא לא נשאלה קודם לכן.

באופן כללי, ניתן לומר שהתיוג של גוגל משפיע בצורה ישירה על הכניסות לאתרים ברשת. כאשר התיוג של גוגל נעשה אוטומטית, הוא נעדר את אותה חשיבה שאדם יכול היה לעשות, למרות שניתן לתכנת אלגוריתם מספיק חכם עבור רוב מקרי אתרי הוובספאם. ובכל זאת, לאור העובדה שהאלגוריתם פועל בצורה אוטומטית, ההצעה שיהיה ערוץ פתוח לפנייה אל גוגל בכל הקשור לתיוג אוטומטי-שגוי לאתרים מקבלת משנה תוקף.

מנגנון שכזה קיים בגרסה אחרת במסגרת השרות של Blogger, שם ניתן לתייג בלוגים כלא-ראויים. מאוחר יותר אנשי בלוגר ניגשים ובודקים את התלונות. על כן, זו לא אמורה להיות בעיה עבור גוגל לשכפל את המנגנון, לעשות לו התאמות (וסקיילינג), וליישם אותו במהרה גם עבור התקלות עם התיוגים במנוע החיפוש.

נדב דופמן-גור

עו"ד העוסק בתחומי דיני הטכנולוגיה, דיני פרטיות וקניין רוחני. מרצה ומנטור לסטארטאפים, ובעל ניסיון רב-שנים בפיתוח ווב (http://about.me/nadavdg).

הגב

הגב ראשון!

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

wpDiscuz

תגיות לכתבה: