Robots.txt - kompletny przewodnik po konfiguracji
Robots.txt to prosty plik tekstowy, który mówi robotom wyszukiwarek co mogą, a czego nie mogą crawlować na Twojej stronie. Źle skonfigurowany może zablokować indeksowanie całej witryny. Dobrze ustawiony optymalizuje crawl budget.
Krótka odpowiedź
Podstawy robots.txt
Plik robots.txt musi znajdować się w głównym katalogu: https://domena.pl/robots.txt
Podstawowe dyrektywy:
- User-agent: - określa którego robota dotyczy reguła (* = wszystkie)
- Disallow: - blokuje dostęp do ścieżki
- Allow: - zezwala na dostęp (nadpisuje Disallow)
- Sitemap: - wskazuje lokalizację sitemap XML
Przykład podstawowy:
```
User-agent: *
Disallow: /admin/
Disallow: /prywatne/
Allow: /
Sitemap: https://domena.pl/sitemap.xml
```
Ważne: Robots.txt blokuje crawlowanie, nie indeksowanie. Strona może być zaindeksowana bez crawlowania, jeśli są do niej linki.
Co blokować w robots.txt
Warto blokować:
- Panele administracyjne (/admin/, /wp-admin/)
- Strony logowania i koszyka
- Wyszukiwarkę wewnętrzną (/search/, /?s=)
- Strony filtrów i sortowania
- Duplikaty treści (wersje druku, PDF)
- Staging i środowiska testowe
NIE blokuj:
- CSS i JavaScript (Google potrzebuje do renderowania)
- Obrazów (chyba że celowo)
- Ważnych treści
Częste błędy:
- Blokowanie całej strony: Disallow: /
- Blokowanie zasobów potrzebnych do renderowania
- Zostawienie robots.txt z developmentu (blokuje wszystko)
Sprawdzaj w Google Search Console czy nie blokujesz czegoś ważnego.
Robots.txt vs meta robots noindex
To dwa różne mechanizmy o różnym działaniu:
Robots.txt:
- Blokuje crawlowanie
- Robot nie odwiedza strony
- Strona może być zaindeksowana (z anchor textu linków)
- Dobre dla oszczędzania crawl budget
Meta robots noindex:
- Pozwala crawlować
- Blokuje indeksowanie
- Robot musi odwiedzić stronę, żeby zobaczyć tag
- Dobre dla usuwania stron z indeksu
Kiedy co używać:
- Całe sekcje bez wartości SEO → robots.txt
- Pojedyncze strony do usunięcia z indeksu → noindex
- Strony z prywatnymi danymi → noindex + ewentualnie robots.txt
Uwaga: Nie blokuj w robots.txt strony z noindex - Google nie zobaczy tagu i może zaindeksować stronę.
Testowanie i debugowanie robots.txt
Narzędzia do testowania:
1. Google Search Console → Ustawienia → Narzędzie do testowania robots.txt
2. Bing Webmaster Tools - podobne narzędzie
3. Technicalseo.com/robots-txt-tester
Co sprawdzić:
- Czy ważne strony są dostępne
- Czy blokowane są właściwe sekcje
- Czy sitemap jest poprawnie wskazana
- Czy nie ma literówek w ścieżkach
Debugowanie problemów:
1. Sprawdź czy plik jest dostępny (200 OK)
2. Zweryfikuj składnię
3. Testuj konkretne URL w narzędziu GSC
4. Sprawdź czy nie ma sprzecznych reguł
Dla WordPressa:
Domyślny robots.txt generowany przez WP jest zwykle OK. Yoast SEO pozwala edytować go z poziomu panelu.