Plik robots.txt — jest to główny plik opisujący zasady traktowania stron robotów wyszukiwarek. Ten plik potrzebny do określenia nazwy głównej serwisu, mapy witryny (sitemap.xml), otwartych i zamkniętych sekcji witryny.
Plik robots.txt obejmuje następujące dyrektywy:
- User-agent — dyrektywa określająca dla jakiego robota poniższe zasady
- * - wszystkie roboty
- Yandex — główny robot Yandex
- Googlebot — główny robot Google
- StackRambler — robot Rambler
- Aport — robot Aport
- Slurp — robota Yahoo
- MSNBot — robota MSN
- Disallow — dyrektywa zakazu części strony
- Allow — dyrektywa rozdzielczości części strony
- Host — dyrektywa podawania nazwy głównej serwisu
- Sitemap— dyrektywa wskazówki mapy witryny (sitemap.xml)
- Crawl-delay — dyrektywa określająca ile sekund robot może czekać na odpowiedź od serwisu (potrzebuje na mocno pobranych zasobów, aby robot nie uznał strona niedostępny)
- Clean-param — dyrektywa opisuje dynamiczne parametry nie wpływają na zawartość serwisu
Помимо директив в robots.txt используются спец символы:
- * - любай (w tym i pusty) ciąg znaków
- $ — jest ograniczeniem zasady
Do sporządzenia robots.txt są używane powyższe dyrektywy i śpiewane znaki w następujący sposób:
- Określa nazwę robota dla którego pisze się lista zasad
(User-agent: * reguła dla wszystkich robotów) - Pisze się lista zakazanych tematów serwisu dla danego robota
( Disallow: / - zakaz indeksowania całej witryny) - Pisze się lista dozwolonych sekcji witryny
(Allow: /home/ — dozwolone sekcja home) - Określa nazwę strony internetowej
(Host: crazysquirrel.ru — podstawowa nazwa serwisu crazysquirrel.ru) - Określa ścieżkę bezwzględną do pliku sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Jeśli na stronie nie ma zakazanych stref, robots.txt musi składać się minimum z 4 linii:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Sprawdzić robots.txt i to, jak to wpływa na indeksowanie witryny za pomocą narzędzi Yandex