Prawidłowy robots.txt

Plik robots.txt — jest to główny plik opisujący zasady traktowania stron robotów wyszukiwarek. Ten plik potrzebny do określenia nazwy głównej serwisu, mapy witryny (sitemap.xml), otwartych i zamkniętych sekcji witryny.
Plik robots.txt obejmuje następujące dyrektywy:

  • User-agent — dyrektywa określająca dla jakiego robota poniższe zasady
    • * - wszystkie roboty
    • Yandex — główny robot Yandex
    • Googlebot — główny robot Google
    • StackRambler — robot Rambler
    • Aport — robot Aport
    • Slurp — robota Yahoo
    • MSNBot — robota MSN
  • Disallow — dyrektywa zakazu części strony
  • Allow — dyrektywa rozdzielczości części strony
  • Host — dyrektywa podawania nazwy głównej serwisu
  • Sitemap— dyrektywa wskazówki mapy witryny (sitemap.xml)
  • Crawl-delay — dyrektywa określająca ile sekund robot może czekać na odpowiedź od serwisu (potrzebuje na mocno pobranych zasobów, aby robot nie uznał strona niedostępny)
  • Clean-param — dyrektywa opisuje dynamiczne parametry nie wpływają na zawartość serwisu

Помимо директив в robots.txt используются спец символы:

  • * - любай (w tym i pusty) ciąg znaków
  • $ — jest ograniczeniem zasady

Do sporządzenia robots.txt są używane powyższe dyrektywy i śpiewane znaki w następujący sposób:

  • Określa nazwę robota dla którego pisze się lista zasad
    (User-agent: * reguła dla wszystkich robotów)
  • Pisze się lista zakazanych tematów serwisu dla danego robota
    ( Disallow: / - zakaz indeksowania całej witryny)
  • Pisze się lista dozwolonych sekcji witryny
    (Allow: /home/ — dozwolone sekcja home)
  • Określa nazwę strony internetowej
    (Host: crazysquirrel.ru — podstawowa nazwa serwisu crazysquirrel.ru)
  • Określa ścieżkę bezwzględną do pliku sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Jeśli na stronie nie ma zakazanych stref, robots.txt musi składać się minimum z 4 linii:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Sprawdzić robots.txt i to, jak to wpływa na indeksowanie witryny za pomocą narzędzi Yandex

Zobacz i komentarze