כיצד משפיע תוכן משוכפל על הדירוג שלכם בגוגל ומה ניתן לעשות בנושא?

מנוע החיפוש של גוגל מעניק עדיפות לתוכן מקורי ופוגע במכוון בתוכן משוכפל. איך זה נוגע לאתר שלכם ומה ניתן לעשות בעניין?

content shutterstock

מאת דניאל זריהן.

תוכן משוכפל הוא ללא ספק אחד הגורמים הקריטיים ביותר המשפיעים על קידום אתרים בגוגל. אם עד לפני כמה שנים גוגל היה מתייחס לנושא זה בסלחנות יחסית, מאז עדכון פנדה (שכבר עבר כמה וכמה גלגולים מאז יצא לראשונה בשנת 2011) זה הפך להיות לנושא בוער שמשפיע על דירוג האתר גם ברמה הרוחבית.

מה זה בכלל תוכן משוכפל?

האינטרנט עמוס לעייפה במידע, כאשר מדי יום נוצרים מליוני דפים חדשים ברשת. גוגל לוקחים על עצמם משימה לא קלה: לארגן את כל המידע הזה בצורה כזו שהתוצאות הרלוונטיות ביותר לגולש יופיעו במקומות הראשונים בגוגל. בעקבות פיצוץ המידע הזה, נוצרים לא מעט מצבים של תוכן משוכפל בין אתרים שונים, כמה דוגמאות לכך:

  • סינדיקציה של חדשות בין אתרי תוכן שעושים שיתופי פעולה.
  • מילים לשירים (Lyrics).
  • מפרטים טכניים ו/או תיאורים של מוצרים באתרי מסחר.
  • ציטוטים.
  • תרגומים של סרטים, סדרות וכו’.
  • העתקה מכוונת של תוכן מאתר X לאתר Y.
  • ועוד המון דוגמאות נוספות.

תוכן משוכפל פנימי מול תוכן משוכפל חיצוני

אך אלו רק מקרים של תוכן משוכפל בין אתרים שונים. קיים נושא, קריטי לא פחות, של תוכן משוכפל פנימי – כלומר בתור דומיין ספציפי. דוגמאות לכך:

  • עמודים בעלי תוכן זהה לחלוטין אבל עם כתובת URL שונות. כמה דוגמאות: עמודים עם גרסת הדפסה, עמודים עם פרמטרים שונים כמו Session ID, מערכת CMS שיש לה כמה גרסאות של URL לכל עמוד, וכו’.
  • עמודי ארכיון למיניהם המציגים אותן פיסות תוכן, כמו למשל: קטגוריות של מוצרים או מאמרים, תגיות, ארכיוני תאריך ועוד.
    אתרי מסחר – אתרי E-commerce בדרך כלל סובלים במיוחד מתופעות של תוכן משוכפל. בעלי אתרים רבים לא משקיעים בכתיבת תיאורים מקוריים לכל מוצר ומוצר באתר, ומשאירים את הטקסטים מהיצרן או “משאילים” תוכן מאתרים אחרים. לא רק זה, גם החיתוכים באתרים אלו לרוב יציגו אוסף של מוצרים שכבר קיים בהמון עמודים אחרים באתר. בהמשך אפרט על כל מיני דרכים להתמודד עם בעיה זו.
  • גרסה לא אחידה של הדומיין: כתובת עם הקידומת WWW לעומת כתובת בלי הקידומת WWW (מפורט בהמשך).
  • “עמודים רזים” – עמודים באתר שאין להם ערך מוסף משלהם, ולמעשה מציגים תוכן זהה או כמעט זהה מעמודים אחרים – זה יכול להיות עמודי קטגוריה / תגיות כפי שהוזכר לעיל, במידה ואין להם טקסט ייחודי משלהם.

תוכן משוכפל לא משרת את הגולשים

אם תחשבו על הצד של גוגל בסיפור הזה – הרי שאין לו אינטרס להציג תוצאות זהות במנוע החיפוש. באמצעות אלגוריתמים מתוחכמים כמו “פנדה” ואחרים, גוגל יפלטר או במקרים חמורים במיוחד, יעניש לחלוטין אתרים בעלי תוכן משוכפל ויציג בתוצאות אתרים שונים זה מזה, לפעמים תוך גיוון מכוון בסוג האתר – למשל אם מישהו מחפש המלצה לטיול ביעד מסוים, הוא עשוי להיתקל במגוון תוצאות שונות: מאמרים, דיונים מתוך פורומים, בלוגים, סרטונים ועוד.

סיבות נפוצות של שכפולי תוכן ברשת ודרכים להתמודד עימן

1. אתרים עם קידומת www לעומת בלי www

אחת הסיבות הנפוצות ביותר לשכפולי תוכן. מדובר בעצם על עניין טכני לחלוטין: אם עמודי האתר שלכם נגישים גם בגרסה ללא קידמות WWW וגם עם הקידומת, יש פה בעיה פוטנציאלית ומומלץ “לאחד” בין הגרסות – בדרך כלל באמצות הפניה רוחבית וגורפת לכל עמודי האתר.

זה לא משנה עם האתר יופיע עם או בלי קידומת, מה שחשוב זה להחליט על גרסה אחת ויחידה שבה יופיעו כל עמודי האתר, לא משנה כיצד הגיעו אליהם.

אם נניח, החלטתי שאני רוצה שכל העמודים שלי יופיעו עם הקידומת WWW, המצב התקין צריך להיות כדלקמן:

http://domain.co.il/page1

תפנה לכתובת

http://www.domain.co.il/page1

למה זה חשוב?

1. אחידות של הצגת עמודי האתר בגוגל, ומניעה של מצב בו גוגל מאנדקס עמודים זהים בגרסאות URL שונות.

2. שמירה על כח העמודים – אם מישהו מחליט לקשר אליי מבחוץ, אבל לא לגרסה ה”נכונה” של העמוד (לצורך העניין – זאת שגוגל מדרג בתוצאות), נוצר כאן מצב מיותר שכח הקישור הזה “מתפצל” בין 2 גרסאות שונות של העמוד.

איך פותרים?

הדרך המומלצת והקלה ביותר לפתור את הסוגייה הזו, היא באמצעות הגדרה טכנית פשוטה בקובץ .htaccess – קובץ שיושב על התיקיה הראשית של השרת. ככה זה נראה:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^yourdomain.co.il
RewriteRule (.*) http://www.yourdomain.co.il/$1 [R=301,L]

בדוגמא לעיל – כל עמוד באתר אוטומטית יופנה לגרסה שלו עם הwww באמצעות הפניית 301.

2. עמודים שיש להם כמה גרסאות URL

זאת סיטואציה מורכבת יותר, בה יש מצבים שלכל עמוד באתר שלנו (או לחלק מהעמודים) יש גרסאות נוספות של כתובות URL.
יש למשל, מערכות CMS (מערכות לבניית אתרים וניהול תוכן) אשר יוצרות כתובת אוטומטיות אך בנוסף מאפשרות לגשת לעמודים גם עם גרסת Friendly URL.

לדוגמא:

http://domain.co.il/productID=1

http://domain.co.il/מוצר1

בדוגמא הזו מדובר על אותו עמוד בדיוק אשר אפשר לגשת אליו ב2 דרכים שונות. מצב זה “יבלבל” את גוגל, ועשוי לגרום לכך שהוא יאנדקס את 2 הגרסאות הנ”ל, ולא ידע מה להציג בתוצאות, ו/או יציג במקומות נמוכים בגלל שהתוכן זהה.
דוגמא נוספת היא עמודים שיש להם כתובת מיוחדת עבור גרסה הדפסה, למשל:

http://domain.co.il/page1

http://domain.co.il/page1?print

המשותף לשני המקרים (גרסת הדפסה + כתובות שונות) זה העובדה שהן נוצרו באופן אוטומטי, עקב מערכת כזו או אחרת.
השיטה המומלצת ביותר לפתרון היא הגדרת גרסה קנונית לעמודים כאלו. גרסה קנונית אומרת בעצם למנועי החיפוש: “זאת הגרסה המועדפת שיש להציג ולדרג בתוצאות”. בכך למעשה נוצר יישור קו ומנועי החיפוש יתעלמו משאר הגרסאות של העמוד.
את הגרסה הקנונית מגדירים באמצעות הפקודה rel=”canonical”

<link rel=”canonical” href=”http://www.yourdomain.co.il/page”/>

את השורה הזו יש להטמיע באזור הבעמוד עצמו. ברוב המערכות הפופולאריות של היום (וורדפרס, ג’ומלה וכו’) יש תוספים ומגוון דרכים קלות לבצע את זה.

3. עמודים עם תוכן רזה

אחת ה”מחלות” הגדולות ביותר של אתרי מסחר אונליין, אבל לא רק. תארו לעצמכם מצב שבו יש אתר חנות עם 1000 מוצרים שונים, הפרוסים על פני 100 קטגוריות שונות. כל קטגוריה למעשה מכילה אוסף מוצרים מתוך ה-1000 האלו, ומציגה את התקציר שלהם (מה שרואים לפני שנכנסים למוצר עצמו). לכן, נוצר מצב של טקסטים משוכפלים רבים וחוסר ייחוד של עמודי קטגוריה – שהם בסה”כ אוסף של תקצירים של מוצרים שקיימים באתר.

לגוגל חשוב להציג בתוצאות החיפוש עמודים עם ערך מוסף, כאלה שמחדשים משהו ונותנים מידע נוסף לגולש. זאת הסיבה שגוגל לא מחבבים במיוחד אתרי אפילייט “רזים” שמציגים רק מוצרים קיימים עם לינק לרכישה.

אחת הדרכים המומלצות להתמודד עם החוסר ייחוד של עמודי קטגוריה / חיתוכים שונים של מוצרים – היא באמצעות הכנסת תוכן מקורי וייחודי לעמודים אלו. זה יכול להיות סוג של תקציר בראש או בתחתית העמוד. כלל האצבע הוא לדאוג שבעמוד יהיה לפחות 20-30% תוכן מקורי ובלעדי לעמוד עצמו – כלומר כל מה שמעבר לתיאורים של המוצרים עצמם, שכאמור נכללים בעוד דפים רבים באתר.

זה לא אומר שצריך להכניס מאמר לכל קטגוריה של מוצרים באתר, אבל תיאור קצר של פסקה או שתיים בהחלט יעשו שיפור משמעותי – הן מבחינת מתן ערך מוסך של תוכן והן מבחינת הזדמנות להכניס ביטויים שרלוונטים למי שמחפש מוצרים בקטגוריה הספציפית.

יש יוצאים מן הכלל

למרות האמור לעיל, יש אתרים שמתקדמים יפה מאד גם בלי כל הקשקושים האלה – אלא רק באמצעות עמודי קטגוריה בלי טקסט ייחודי משלהם.

2 דברים לגבי זה:

  • צריך לזכור שגוגל מדרג אתרים ביחס לתחום בו הם פועלים – כלומר את אלו שעושים את העבודה הטובה ביותר מבין המתחרים שלהם. גם אם כל המתחרים בתחום מסוים עושים עבודה גרועה או בינונית, גוגל חייב להציג מישהו במקום הראשון, השני וכן הלאה.
  • אתרים בעלי סמכות גבוהה מיוחד לא צריכים להתרגש יותר מדי מעניינים של תוכן משוכפל. קחו למשל את אתר זאפ – אתר עם עשרות אלפי מוצרים וגם לא מעט קטגוריות. האתר מכיל טקסטים ותיאורים שיש בעוד המון אתרים אחרים. אבל בגלל שהוא אתר סמכותי מאד שגוגל סומך עליו – ברוב המקרים הוא יקבל עדיפות בתוצאות.

מה עושים באתרים שמכילים אלפי קטגוריות והתקציב מוגבל?

במקרה כזה, ניתן להגדיר noindex (כלומר להגיד למנועי החיפוש: אל תוסיפו את העמוד הזה לאינדקס) על עמודי קטגוריות פנימיים ונידחים, כך שלא יהיו באינדקס של גוגל אבל יהיו נגישים לגולשים. בצורה הזו – אין שום השפעה על חווית המשתמש והתוכן שמוצג לגולש, אבל מבחינת גוגל ומנועי חיפוש אחרים – הבעיות של שכפולי התוכן יצומצמו. בכל מקרה הסיכוי שגולש יגיע מגוגל לדף קטגוריה פנימי ומרוחק הוא די קלוש (שוב, בהנחה ולא מדובר באתר מפלצתי וחזק במיוחד).

4. סיווג של עמודים באמצעות פרמטרים ב-URL

זה דומה למקרה של סעיף 2. מדובר על תוכן דינמי המוצג על ידי פרמטר משתנה ב-URL. לדוגמא:

http://www.domain.co.il/category?orderby=color

http://www.yourdomain.com/category?orderby=price

דוגמא לכתובות המציגות קטגוריה של מוצרים אשר נוסף עליהן פרמטר של סינון המוצרים. גוגל עשוי לאנדקס את הכתובות גם עם הפרמטרים שלהם, מה שיכול לגרום לתוכן משוכפל. גם כאן הפתרון פה הוא להטמיע תגית rel=”canonical” לכתובת הראשית של הקטגוריה.

5. עמודי ארכיון

כל מי שעובד עם וורדפרס יודע שיש כמה וכמה סוגי “חיתוכים” לפוסטים באתר: קטגוריות (Categories), תגיות (Tags), תאריכים (archives), עמודי מחבר (author) ולהם מתווספים גם חיתוכים שונים לפי סוגי אתרים – למשל מוצרים באתרי מסחר, פורטפוליו באתרי תדמית והרשימה עוד ארוכה.

מה שמשותף לסוגי העמודים האלה, הוא שהם בסך הכל מציגים אוסף תכנים המשויכים אליהם (בדרך כלל פוסטים, מוצרים או תיק עבודות) ואין להם ייחוד בפני עצמם.

התופעה הזו כמובן לא בלעדית לוורדפרס, אבל לקחתי את וורדפרס כדוגמא טובה כי המערכת נפוצה מאד. הבעיה כמובן היווצרות של המון קטעי תכנים זהים לאורך האתר – למשל פוסט המופיע בכמה קטגוריות ו/או בתגיות.

באתרי תוכן רגילים בדרך כלל אין יותר מדי קטגוריות ותגיות ולכן יש כמה דברים שאפשר לעשות:

  • לא לאנדקס עמודי ארכיון בכלל (קטגוריות/פוסטים/תאריכים וכו’).
  • לבחור לאנדקס רק קטגוריות ולתת להן תיאורים ייחודיים.
  • לאנדקס קטגוריות ותגיות ולהגדיר תיאור קצת לכל עמוד (במידה והתקציב והזמן מאפשרים).
  • להתעלם ולאפשר לגוגל לאנדקס הכל. בתכלס, באתרים מבוססי תוכן לא נתקלתי יותר מדי בבעיות של שכפול תוכן – כנראה גוגל למד עם הזמן להתמודד עם התופעה ולהתייחס אליה בסלחנות שכן מדובר בהמון אתרים בעולם שמשתמשים בוורדפרס. צריך לזכור שקטגוריות ותגיות הן גם פתח נוסף של גולשים להגיע לאתר דרך חיפושי לונגטייל למיניהם. יחד עם זאת, מומלץ כן להקדיש כמה דקות בכל פעם על מנת לתת תיאור וייחוד לכל קטגוריה ותגית באתר.

6. עימוד  – Pagination

זה סוג של ארכיון, אבל ראיתי לנכון להקדיש לו קטגוריה בפני עצמו.

מדובר על עמודים באתר, למשל עמודי מאמרים או מוצרים, שיש להם מספר דפים שאפשר לדפדף בינהם.

image1

מה שנוצר בסופו של דבר, זה כתובת כאלו למשל:

http://www.domain.co.il/article?story=abc <– כותרת ראשית של קטגוריה

http://www.domain.co.il/article?story=abc&page=1 <–  העמוד הבא של הקטגוריה
הדרך המומלצת להתמודד עם זה, היא באמצעות תגיות rel=”next” וגם rel=”prev”.

אם אתם על מערכת וורדפרס, התוסף הפופולארי SEO by Yoast כבר סגר לכם את הפינה. אבל יש צורך להטמיע זאת באופן ידני, כך צריך לבצע את זה (את השינויים יש להכניס באזור ה- <head> של אותו עמוד):

אם נמשיך עם הדוגמא לעיל, בעמוד הראשון נטמיע את הקוד הבא:

<link rel=”next” http://www.domain.co.il/article?story=abc&page=1″ />

בעמוד השני:

<link rel=”prev” http://www.domain.co.il/article?story=abc&page=1″ />

<link rel=”next” http://www.domain.co.il/article?story=abc&page=3″ />

וכן הלאה.

7. תוכן משוכפל של אתר עם גרסת מובייל נפרדת

הגרסה המומלצת של הקמת אתרי מובייל עפ”י גוגל – היא אתרים רספונסיביים. הכוונה היא אתרים שיודעים להתאים את עצמם לרזולוציית המסך של הגולש, בלי שהכתובות משתנות. כלומר קיים אתר אחד עם גרסה אחידה של עמודים, רק המראה משתנה באתר לגודל המסך. מנקודת מבט של גוגל, ברור למה הם מעדיפים להתעסק עם אתרים רספונסיביים – כמה שפחות עניינים של תוכן משוכפל.

יחד עם זאת, אתרים שיש להם גרסת מובייל נפרדת על סאב דומיין (m.domain.co.il) או דומיין נפרד לחלוטין מהאתר הראשי, שבהם קיימים תכנים זהים לאתר הראשי, צריכים להתמודד עם שכפול התוכן שנוצר בעקבות כך.

דרך אחת היא לחסום לחלוטין את אתר המובייל לרובוטים של גוגל אבל להפנות את הגולש לאתר המובייל. זה אומר שאם הגולש מוצא את האתר בגוגל דרך הסלולרי שלו, הוא יראה בתוצאות את הכתובת של האתר הרגיל, אבל ברגע שהוא יכנס לאתר הוא יופנה אוטומטית לגרסת המובייל של האתר (או לחילופין יצטרך לבחור את הגרסה המועדפת עליו, כפי שעושים לא מעט אתרים גדולים).

אפשרות שניה היא כן לפתוח את אתר המובייל לגוגל, אבל “להודיע” לו שיש לאתר הזה גם גרסה רגילה ולהצביע על היחסים בינהם, באמצעות שימוש בתגיות rel=”canonical” ו- rel=”atlernate”.

מידע נוסף יש במדריך הזה של גוגל.

קרדיט תמונה: pc with content via shutterstock

new gaa

Avatar

כתב אורח

אנחנו מארחים מפעם לפעם כותבים טכנולוגים אורחים, המפרסמים כתבות בתחומי התמחות שלהם. במידה ואתם מעוניינים לפרסם פוסט בשמכם, פנו אלינו באמצעות טופס יצירת קשר באתר.

הגב

6 תגובות על "כיצד משפיע תוכן משוכפל על הדירוג שלכם בגוגל ומה ניתן לעשות בנושא?"

avatar
Photo and Image Files
 
 
 
Audio and Video Files
 
 
 
Other File Types
 
 
 

* היי, אנחנו אוהבים תגובות!
תיקונים, תגובות קוטלות וכמובן תגובות מפרגנות - בכיף.
חופש הביטוי הוא ערך עליון, אבל לא נוכל להשלים עם תגובות שכוללות הסתה, הוצאת דיבה, תגובות שכוללות מידע המפר את תנאי השימוש של Geektime, תגובות שחורגות מהטעם הטוב ותגובות שהן בניגוד לדין. תגובות כאלו יימחקו מייד.

סידור לפי:   חדש | ישן | הכי מדורגים
גרגמל
Guest

לפחות לגבי ההמלצה הראשונה, גוגל עצמה ממליצה בכלי מנהלי האתרים להוסיף את שתי הגרסאות – עם WWW ובלי WWW.

“Make sure you add both “www” and “non-www” versions for your site”

דניאל זריהן
Guest

נכון, ומומלץ בכל מקרה לעשות את זה כדי לא לפספס מידע חשוב.

אבל זה לא סותר שכדאי לאחד בין הגרסאות על מנת להמנע משכפולים מיותרים ו”זליגת” כח בין עמודים באתר

דניאל זריהן
Guest

מי שמעוניין מוזמן לקרוא על קייס סטאדי מאד מעניין באתר שלי על החלפת תוכן באתר שהקפיצה את הביטוי הרלוונטי משום מקום לתוצאה 2 בגוגל
http://danielzrihen.co.il/duplicate-content-case-study/

סתם מישהו
Guest

לגבי הנקודה האחרונה של המובייל – לא מדוייק.
לא מומלץ לחסום אתר מובייל לגוגל ולהפנות גולשים. לפי גוגל צריך להתייחס ל crawlers שלו כמו אל משתמש רגיל ולא לעשות לו הפניות / חסימות מיוחדות אחרת זה יכול להחשב כ cloaking (הצגה של משהו אחד לגוגל ומשהו אחר ליוזר)
הפתרון במקרה הזה הוא כמו שנאמר ע”י שימוש ב rel alternate ו canonical

שאול
Guest

כתבה טובה אבל לא מספיק מקיפה, כדי להעמיק אני ממליץ על:
https://www.seobits.co.il/bits/duplicate-content.html

ד\
Guest

שלום דניאל, תודה על המידע המפורט. לא מצאתי התייחסות למקרה כמו שלי. פירסמתי מספר כתבות שכתבתי בפורטלים שונים ועכשיו העברתי לאתר שלי. אז הם מופיעים לפחות פעמיים ברשת (אלא אם מישהו העתיק אותם אך זה לא בשליטתי) איך גוגל יתייחס לזה ?

wpDiscuz

תגיות לכתבה: