Co si „web“ ze serveru žádá?

Tento článek stručně popisuje soubory robots.txt, favicon.ico a sitemap.xml. Přidáním těchto souborů na web správci nejen zlepšují viditelnost webu, povědomí o propagované značce, ale také snižují počet generovaných chyb zapsaných v souboru error_log. Tím se zmenšuje celková velikost webu a zároveň se při analýze případných problémů může ušetřit filtrování záznamů.

Článek tématicky navazuje na článek Googlebot.

Jakýkoliv existující web může navštívit crawler. Při své návštěvě se bude zajímat o jeho strukturu, kam má povolen přístup, kam nesmí. Jiný případ je běžný internetový prohlížeč. Může chtít po webovém serveru jeho ikonku, aby mohl viditelně odlišit tyto stránky od jiných. Z hlediska SEO je na místě opět crawler, který rád využije předpřipravené informace o struktuře webu a bude se orientovat na které stránky je kladen důraz, které má navštěvovat častěji a které se příliš nemění.

Robots.txt

Soubor robots.txt je standardem pro vyloučení robotů, kteří se chystají indexovat strukturu webových stránek. Soubor vznikl dohodou více stran a obsahuje informace o tom, které stránky nebo části webu mají být vyloučeny z indexování prostřednictvím robotů. Stránky označené v tomto souboru se, v případě respektování jeho obsahu (což nedělají všechny vyhledávače – ty slušné ano), vyloučí z výsledků vyhledávání a uživatel se k nim přes ně nemůže dostat.

Pokud chcete povolit přístup všude, soubor robots.txt obsahuje:

User-agent: *
Disallow:

Pokud chcete naopak úplně zakázat indexování webu, naplníte obsah takto:

User-agent: *
Disallow: /

Rozšíření robots.txt

Soubor robots.txt může kromě základních vlastností obsahovat i určitá rozšíření. Patří mezi ně parametry Sitemap, Crawl-delay, nebo Allow.

Para metr Sitemap má syntaxi:

Sitemap: http://www.skolicka.net/sitemap.xml

Udává, kde je umístěn soubor sitemap.xml (resp. sitemap.xml.gz), který narozdíl od robots.txt roboty informuje o struktuře webu a je tím pádem jakýmsi „whitelistem“, tedy seznamem adres, které robot má navštívit.

Crawl-delay říká jak dlouho má robot (crawler) počkat mezi dvěma dotazy. Parametr Allow lze použít, pokud je vyloučen přístup k nějakému adresáři, ale přesto z něj nějaký podadresář nebo soubor indexovat chceme. Pak „přebíjí“ význam Disallow pro daný pod-rozsah.

Podrobnější informace o robots.txt lze získat například na Wikipedii nebo na robotstxt.org.

Sitemap.xml

Internetovým robotům nelze nařídit, které stránky mají indexovat, ale lze jim poskytnout relevantní údaje, které mohou využít pro lepší orientaci na konkrétním webu. Soubor sitemap.xml by měl být umístěn v kořenovém adresáři webu, ale jeho umístění lze i měnit a informovat o něm prostřednictvím souboru robots.txt. V případě rozsáhlejších map je vhodné jej zagzipovat (vytovřit sitemaps.xml.gz).

Základní struktura tohoto XML souboru vypadá takto:

<?xml version=“1.0″ encoding=“UTF-8″?>
<urlset xmlns=“http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.skolicka.net/</loc>
</url>
</urlset>

Vyžadované značky jsou urlset (jako obal celého balíčku), url (jako záznam o jednotlivé adrese) a loc jako URL příslušné stránky. Volitelné doplňkové značky náležející dovnitř značky url jsou:

  • lastmod – obsahuje datum (a čas) poslední modifikace podle ISO 8601
    • 2008-03-30
    • nebo v UTC: 2008-03-30T12:25:00
    • nebo v SELČ: 2008-03-30T14:25:00+02:00
  • changefreq – hodnota popisuje frekvenci změn prováděných na příslušné stránce – lze použít:
    • always
    • hourly
    • daily
    • weekly
    • monthly
    • yearly
    • never
  • priority – hodnota od 0.0 do 1.0 – relativní priorita stránek na popisovaném webu

Co je důležité vědět?

Všechny hodnoty, které sitemap obsahuje jsou pro vyhledávače pouze informativní!

Frekvence změn, kterou lze jednotlivým stránkám přiřadit je od always (při každé návštěvě) až po never (nikdy). V praxi neznamená, že pokud je stránce změna frekvence nastavena na hodinu, že ji robot každou hodinu navštíví. Robot může i pravidelně navštěvovat stránky, které jsou označeny jako never, aby v případě, že k nějaké změně dojde měl informace o novém obsahu stránky. Frekvenci je vhodné nastavit rozumně – s ohledem k tomu, že robot pravděpodobně nebude mít čas navštěvovat všechny stránky každou hodinu. Které má tedy navštěvovat častěji a které méně často? To lze sdělit parametrem changefreq.

Priorita stránek může být použita ve chvíli, kdy uživatel vyhledávače najde Váš web ve výsledcích vyhledávání. V případě, že dvě stránky z Vašeho webu vycházejí na stejnou pozici ve vyhledávání, vyhledávač se může orientovat prostřednictvím priority v tom, kterou stránku si přejete upřednostnit. Priorita je v rámci celého webu chápána relativně, takže nastavit prioritu všem stránkám na 1.0 nemá smysl! Výchozí priorita je 0.5.

Podrobnosti popisovaného protokolu uvádí stránky sitemaps.org nebo Wikipedie, kde můžete najít i odkazy jak sitemap přidat do vyhledávačů – jak upozornit na své stránky.

Favicon.ico

Tímto názvem bývá nejčastěji nazývána ikona, která původně sloužila k zjišťování počtu uživatelů, kteří si příslušnou stránku přidali do oblíbených (favorites icon). S rozvojem webových prohlížečů se záložkami (nebo „taby“) se začala ikona používat k vizuálnímu odlišení stránky od ostatních. Uživatel se pomocí ikonky snáze orientuje.

Na ikonu lze upozornit prohlížeč pomocí HTML zápisem:

<link rel="shortcut icon" href="/favicon.ico" />

Některé prohlížeče soubor favicon.ico hledají v kořenovém adresáři webu automaticky, aniž by HTML stránka odkaz obsahovala. Pokud budete ikonu pro web vytvářet, lze použít soubory s příponou ico, gif nebo png. Pro všechny tyto formáty je nutné dodržet parametry týkající se rozměrů a počtu barev.

Podrobnosti opět přináší Wikipedie.

Závěr

Tento stručný výčet představuje zřejmě soubory nejčastěji používané internetovými roboty.