Máme dve URL adresy s totožným obsahom, alebo sa líšia len v drobnostiach a cielia na vlas rovnaké kľúčové slová. Vieme, že Google sa takéto URL adresy snaží kanonizovať, tzn. zlúčiť do jednej skupiny, potom vybrať jedného reprezentanta, ktorému prisúdi sumu odkazovej šťavy za všetky URL v skupine (nie je to úplne suma, ale teraz detail) a len toho reprezentanta bude vo výsledkoch ukazovať.
Ako zistiť, či Google rôzne URL adresy s rovnakým obsahom zlúčil? A ktorá URL je reprezentantom? Pomocou Google cache:
- Zoberte dve stránky, ktoré majú rovnaký alebo veľmi podobný obsah, ktorých kanonizácia vás zaujíma. Ja som si zobral:
- http://www.orange.sk/web/internet/internet-v-mobile/o-sluzbe.html
- http://www.orange.sk/web/internet/internet-v-mobile/o-sluzbe2.html
- Zobrazte cache oboch stránok zadaním nasledovných príkazov do Googlu:
- cache:http://www.orange.sk/web/internet/internet-v-mobile/o-sluzbe.html
- cache:http://www.orange.sk/web/internet/internet-v-mobile/o-sluzbe2.html
- Sledujte URL, ktorú Google zobrazí hneď hore za slovami: „Toto je vyrovnávacia pamäť Google pre …“. Súhlasí s tou, čo ste zadali?
V mojom prípade sa pri prvej cache pre o-sluzbe.html zobrazované URL zhoduje, avšak v druhom prípade sa pri zadaní cache o-sluzbe2.html zobrazí znovu cache pre o-sluzbe.html.
Tzn. Google pochopil, že tie stránky sú duplicitné a ako reprezentanta označil URL o-sluzbe.html. Logicky, neunúva sa robiť cache pre stránky, ktoré boli vyhodnotené ako duplicitné.
Na čo mi to je?
- Ak odhalíte duplicitné stránky a správca webu vám povie, že:
- Zlúčenie stránok, konsolidácia obsahu a presmerovanie 301 redirectom neprichádza do úvahy kvôli marketingu, vnútrofiremným predstavám, apod.
- Kvôli technickej náročnosti/nákladnosti sa nedá použiť ani canonical tag (nesmejte sa, stáva sa to!).
budete vedieť, že Google to už do veľkej miery vybavil za vás.
- Ako iste viete, Google môže vaše odporúčanie v canonical tagu odignorovať. Týmto spôsobom si môžete jeho funkčnosť odskúšať.
- Ak sa chystáte riešiť duplicitu dvoch stránok a je vám jedno, ktorú URL bude Google ukazovať vo výsledkoch hľadania. V tom prípade je vhodné zistiť, ktorú Google považuje za reprezentanta už teraz a 301 redirect alebo canonical použiť podľa toho.
- Podobne ako pri predošlom bode, v prípade získavania spätných odkazov.
Komentáre
druhá podstránka (…/o-sluzbe2.html)nie je ani v indexe google (zatiaľ), preto ten výsledok z cache
Tomáš Polakovič, prišiel si na zaujímavú vec. Duplicitná stránka sa nevracia na operátor site: a ani na žiadny iný výraz. To ale neznamená, že o nej Google nevie. Stránka o-sluzbe2.html je už živá dlho, už ju celkom určite zaindexoval.
Zamysli sa nad tým, ako by Google mohol ukazovať cache stránky inej URL, keď nevie, čo je tá URL zač. Neindexovaným stránkam ukazuje toto: http://webcache.googleusercontent.com/search?q=cache%3Ahttp%3A//www.orange.sk/web/internet/internet-v-mobile/o-sluzb2.html
Duplicitným URL dokonca z rovnakého dôvodu ukazuje rovnaký toolbar PageRank, aj keď celkom určite viem, že tá druhá URL si ho “nezaslúži”, je to zastrčená stránka nižšie v štruktúre webu.
Skús si viac príkladov, verím, že prídeš na to, že to funguje. Funguje to už inak asi 3, možno už 4 roky. Čudujem sa, že o tom nikto ešte nenapísal.
Myslel som to skôr tak, že aj kontrola zaradenia do indexu niekedy postačuje na určenie verzie podstránky, ktorú google uprednosňuje.
Je mi jasné, že o tej podstránke google vie, odkaz je priamo z menu. Ale to že má toolbarPR som si všimol až teraz, ked si napísal :-)