Joomla 1.5 a duplicitní obsah I.

2-190x300.gif

Pokud začínáte s Joomlou nebo tvorbou webových stránek obecně, možná zrovna prožíváte ten úžasný pocit, jak snadné může být postavit stránky na otevřeném redakčním systému. Zatímco si užíváte vlnu nadšení a tvoříte web, pravděpodobně nemáte možnost ani chuť myslet na záporné vlastnosti Joomly. Vezměte na vědomí, že jako každý systém, tak i Joomla má svá slabá místa. A jednou z jejích slabin, o které bych dnes chtěl napsat je duplicitní obsah.

Filip Slouka - Creative WebdesignAutorem článku je Filip Slouka, zakladatel Creative Webdesign. S Joomlou pracuje od jejího počátku a vytváří pomocí ní webové stránky nejen pro živnostníky a společnosti. V poslední době poskytuje Joomla! poradenství a tvorbu mobilní verze stránek, okrajově se věnuje propagaci firem na internetu.

Vymezení problému duplicity

Z pohledu vyhledávačů je duplicita obsahu poměrně závažným problémem.  Představte si, že nějaký autoritativní webový magazín vydá zajímavý článek, který několik lidí nelegálně (ať už vědomě či nevědomě) zkopíruje a umístí na různá další místa na internetu. Ačkoli je to protizákonné, jde o častý jev, jak to na internetu dnes chodí.  Aby nedošlo k dalšímu poškozování autora, musí algoritmy vyhledávačů určit, který z těchto obsahů je originál a co jsou duplikáty čili kopie. Jedním z určujících faktorů může být datum umístění článku nebo důvěryhodnost webu, rank stránky atd. Následně na základě těchto výsledků vyhledávač udělí každé stránce své hodnocení, přičemž autor textu by měl získat nejvyšší body, naopak duplikátoři získají zanedbatelné ohodnocení.

Výše uvedený případ popisuje duplicitu v rámci více různých domén. Běžnou praxí ovšem je, že se duplicita nechtěně vyskytuje i v rámci jedné domény – třeba zrovna té vaší.  Jak je to možné? Budu zde mluvit v mantinelech OS Joomla, o které jste možná dosud nevěděli, že podporuje tvorbu duplicitního obsahu. Je to dáno jejím jádrem neboli základními principy jejího fungování a tím, jak tvoří URL adresy. Samozřejmě, nebo spíš naštěstí, zde existuje několik možností, jak se s duplicitou v rámci vašeho webu vypořádat.

Přístupy k odhalení a eliminaci duplicity

Postavili jste si krásný a funkční web a nyní začínáte zjišťovat, jak si vede ve vyhledávačích, jak web lépe optimalizovat a získat více čtenářů. Stojíte tedy na klasickém bodě, kdy po uvedení projektu do provozu přemýšlíte, co dál. Píšete nové články a sem tam přidáte nějakou novou funkci. To vše je v pořádku, ovšem z hlediska SEO máte na webu jednu zásadní chybu – duplicitu úvodní stránky. Začněte to řešit co nejdříve, třeba právě díky tomuto návodu.

V praxi se můžete setkat s několika metodami, jimiž lze duplicitu obsahu potlačit. Nejprve si ale musíme říct, kde konkrétně se na webu duplicita může vyskytovat.

Duplicita úvodní stránky

Otevřete si prohlížeč a zadejte vaši URL adresu v tomto tvaru: www.mojedomena.cz/index.php, vidíte, že se zobrazila úvodní stránka, tedy stejná stránka co se zobrazí, zadáte-li www.mojedomena.cz.

Jaký to má důsledek? Vyhledávače jsou zmateny, která z těchto dvou stránek je hlavní a rozdělí hodnocení stránky nějakým poměrem. Výsledkem je, že vaše úvodní stránka dostupná na adrese www.mojedomena.cz získá nižší rank, než by ve skutečnosti mohla dostat! Jste překvapeni?

To ale není vše. Články na adrese www.mojedomena.cz/clanek a www.mojedomena.cz/index.php/clanek jsou vlastně také duplicitní. Tím pádem jsou duplicitní všechny články na vašem webu. Pokud je tato informace pro vás zcela nová, nezoufejte a čtěte dále.

Odstranění duplicity úvodu

301 přesměrování pomocí .htaccess

Pomocí přesměrování 301 lze /index.php automaticky a trvale přesměrovat na „/“ .Tím sice dojde k odstranění duplicity úvodu, ale znemožní to přihlášení se do administrace, jelikož URL adresy v backendu rovněž používají index.php, tedy příponu založenou na typu dokumentu.

Toto řešení je tedy použitelné v případě, když nepotřebujete v budoucnu dělat žádné (nebo časté) změny na stránkách. Museli byste totiž pokaždé soubor .htaccess přepsat do původního stavu.

Pokud chcete 301 přesměrování použít, postupujte následovně:

  1. Přihlaste se na FTP a stáhněte si z kořenové složky soubor htaccess.txt
  2. Soubor přejmenujte na .htaccess a otevřete v editoru (textový nebo HTML stačí)
  3. Zkopírujte kamkoli tento kód:
    ### přesměruje index.php na root / ###
    RewriteCond %{THE_REQUEST} ^.*/index.php HTTP/
    RewriteRule ^(.*)index.php$ /$1 [R=301,L]
  4. Uložte změny
  5. Nahrajte soubor na FTP

V tomto případě jsme vycházeli z předpokladu, že máte v Globálním nastavení Joomly nastaveno SEO na volbu „URL přátelská k vyhledávačům (SEF)“. Díky tomu Joomla tvoří hezké tvary URL adres, které se berou z názvů sekcí, kategorií a článků. Volba „Použít Apache mod_rewrite“ nemusí být nastavena na Ano, soubor .htaccess bude fungovat i bez toho. Pokud by náhodou soubor způsobil pád stránek, tak zkuste zakomentovat řádek Options +FollowSymLinks (neboli umístěte # na začátek řádku).

Nastavením souboru robots.txt

Další možností, jak potlačit duplicitu úvodu je použít soubor robots.txt. Tento soubor říká vyhledávacím strojům, jak stránku procházet a co na ní indexovat a co nikoli. Můžete tedy vyhledávači teoreticky zakázat stránky, které indexovat nechcete. Praxe je sice trochu odlišná, protože některé vyhledávače se k souboru robots.txt nestaví zcela zodpovědně a do jisté míry jeho obsah mohou ignorovat a zaindexovat co se jim zlíbí. Tato metoda odstranění duplicity tedy rovněž není zcela 100%. Nicméně, chcete-li ji použít, pak postupujte takto:

  1. Přihlaste se na FTP a stáhněte si z kořenové složky soubor robots.txt
  2. Pokud se tam soubor nenachází, vytvořte jej
  3. Data pro robots.txt:
    Robots File data
    User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Disallow: /index.php?option=*&view=*&id=*&Itemid=*
    Disallow: /index.php?view=*&id=*&option=*
    Disallow: /index.php/index.php/*
    Disallow: /index.php
  4. Soubor uložte a nahraje zpět na FTP

Zápis Disallow: /složka/ na každém řádku robotům říká, kam mají zakázán přístup. Hvězdička * znamená masku, čili že pravidlo platí na jakýkoli znak. O poslední řádek nám jde nejvíce. Otázkou ale je, jak se roboti postaví k tomu, že se vlastně nejedná o složku. Z dostupných informací vyplývá, že by to mělo fungovat. Tuto metodu ovšem také nemohu označit za 100% spolehlivou.

Instalací a nastavením komponenty sh404SEF

Jako poslední možnost uvedu komerční komponentu sh404SEF. Tato komponenta v podstatě také vytváří 301 přesměrování z /index.php na / , ale vzhledem k její propracovanosti a různým nastavením to dělá trochu sofistikovaněji, než byl náš uvedený příklad 301 přesměrování pomocí htaccess. Komponenta nabízí širokou škálu nastavení ve smyslu zlepšení SEO webu.

Závěr

Problém duplicity obsahu není dobré podceňovat, jde-li vám o to dostat ze stránky maximum a taky o správný SEO přístup. Dostupné metody zdarma nejsou vždy plně účinné. Komerční komponenta vás vyjde zhruba na 30 Euro. Získáváte s ní ale poměrně účinný SEO nástroj. Co tedy zvolit? Já osobně s komponentou nemám zkušenosti, používám omezení duplicit obsahu pomocí souboru robots.txt, ale investici do komponenty sh404SEF zvažuji. Doufám, že někomu tento článek pomohl a těším se „napřečtenou“ u dalšího článku.

1 Response

  1. Ashgriel Březen 29, 2012 / 7:16 pm

    něco takového sem hledal, je to sice s wordpressem, ale to s tim htaccesem snad pujde take :) mas me v odberu :)

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Můžete používat následující HTML značky a atributy: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>