Sitemap a robots.txt pro lepší indexaci webu

Robots.txt

Při čtení diskuzí o vývoji webů nezřídka narazím na „hledání zázračného SEO receptu pro zajištění první pozice ve výsledcích vyhledávání“. Takový recept neexistuje, ale existují kroky, jimiž lze pomoci robotům, k lepší indexaci stránek.

Jednou z možností je korektní používání map stránek, sitemap. Předání adresy map stránek a sdělení toho co si přejete indexovat a co nikoliv je záležitostí doplňkového souboru robots.txt.

Sitemap

Sitemap, neboli mapa stránek, má pomoci k orientaci na stránkách. Může být ve tvaru srozumitelném pro člověka, třeba vygenerovaná podstránka; u rozsáhlého webu se ve struktuře čtenář moc orientovat nebude. Mnohem důležitější je verze ve standardizovaném XML formátu, který je strojově zpracovatelný.

Je to pouze doplněk pomáhající robotům při procházení webu. Díky času poslední změny konkrétní stránky pozná, má jednodušší rozhodování, zda je stránka nová, upravená, nebo ji již jednou indexovanou má. Podvádět v aktuálnosti příspěvků, podvržením data vydání, je snadné, ale roboti vyhledávačů poznají, že se text nezměnil a k penalizaci to nemusí být daleko.

Technicky je struktura XML popsána na stránkách sitemaps.org.

robots.txt

Soubor robots.txt povoluje a zakazuje robotům indexaci. Roboti („průzkumné jednotky“ fulltextových vyhledávačů) mohou direktivy ignorovat, nejsou závazné.

První řádek by měl robotům ukazovat mapu stránek, výše popsaný sitemap.xml. Jméno souboru není důležité, může to být i mapa_webu.xml, pokud ten má správnou strukturu a je uvedený v robots.txt; robot se nebude snažit hledat výchozí sitemap.xml.

Používám následující robots.txt:

Sitemap: https://www.olsavsky.cz/sitemap_index.xml

User-agent: *
Allow: /wp-content/uploads/

User-agent: *
Disallow: /wp-content/plugins/
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-includes
Disallow: /search/ #zakázat přístup na stránky vnitřního vyhledávání
Disallow: *?s=* #zakázat přístup na stránky vnitřního vyhledávání

Jak na sitemaps a robots.txt ve WP?

Mapa stránek ve WordPressu

Ve světě WordPressu je řešením výběr vhodného rozšíření/pluginu, WordPress je sám zatím negeneruje. V době přípravy článku však již je příslib, že se situace změní.

Pro generování XML mapy stránek je v nabídce několik pluginů, s různými možnostmi nastavení. Prakticky většině webů dostačuje mapa generovaná „SEO rošířeními“ (např.: Yoast SEO), jen je nutné se podívat, na jaké URL (adrese) je mapa dostupná a tu zadat do robots.txt. Pokud používáte vedle SEO pluginu jiné rozšíření na tvorbu sitemap.xml, tak funkčnost v SEO rozšíření vypněte, stránkám nijak nepomůže duplicita ve funkcionalitě.

Pokud je adresa mapy jiná, než běžné example.com/sitemap.xml, a roboti mohou ignorovat pravidla z robots.txt, může být vhodné podstrčit očekávanou adresu zápisem v souboru .htaccess:

Redirect 301 /sitemap.xml /sitemap_index.xml
#alternativa, pokud prosty rewrite zpusobi error 500:
#<IfModule mod_rewrite.c>
#   RewriteEngine on
#   RewriteRule   sitemap.xml sitemap_index.xml   [R=301,L]
#</IfModule>

robots.txt ve WordPressu

I na vytvoření a správu triviálního souboru existují pluginy, například Virtual Robots.txt nebo Better Robots.txt. Nejsem přítelem pluginu pro každou maličkost, pokud ji lze řešit vlastní prací ve velmi krátkém čase.

Výše uvedenou ukázku robots.txt kopíruji napříč weby, jen se změnou url v direktivě Sitemap:.

Datum:  Publikováno:
Štítky: