Podstawy robots.txt

Plik robots.txt musi znajdować się w głównym katalogu: https://domena.pl/robots.txt

Podstawowe dyrektywy:
- User-agent: - określa którego robota dotyczy reguła (* = wszystkie)
- Disallow: - blokuje dostęp do ścieżki
- Allow: - zezwala na dostęp (nadpisuje Disallow)
- Sitemap: - wskazuje lokalizację sitemap XML

Przykład podstawowy:
```
User-agent: *
Disallow: /admin/
Disallow: /prywatne/
Allow: /

Sitemap: https://domena.pl/sitemap.xml
```

Ważne: Robots.txt blokuje crawlowanie, nie indeksowanie. Strona może być zaindeksowana bez crawlowania, jeśli są do niej linki.

Co blokować w robots.txt

Warto blokować:
- Panele administracyjne (/admin/, /wp-admin/)
- Strony logowania i koszyka
- Wyszukiwarkę wewnętrzną (/search/, /?s=)
- Strony filtrów i sortowania
- Duplikaty treści (wersje druku, PDF)
- Staging i środowiska testowe

NIE blokuj:
- CSS i JavaScript (Google potrzebuje do renderowania)
- Obrazów (chyba że celowo)
- Ważnych treści

Częste błędy:
- Blokowanie całej strony: Disallow: /
- Blokowanie zasobów potrzebnych do renderowania
- Zostawienie robots.txt z developmentu (blokuje wszystko)

Sprawdzaj w Google Search Console czy nie blokujesz czegoś ważnego.

Robots.txt vs meta robots noindex

To dwa różne mechanizmy o różnym działaniu:

Robots.txt:
- Blokuje crawlowanie
- Robot nie odwiedza strony
- Strona może być zaindeksowana (z anchor textu linków)
- Dobre dla oszczędzania crawl budget

Meta robots noindex:
- Pozwala crawlować
- Blokuje indeksowanie
- Robot musi odwiedzić stronę, żeby zobaczyć tag
- Dobre dla usuwania stron z indeksu

Kiedy co używać:
- Całe sekcje bez wartości SEO → robots.txt
- Pojedyncze strony do usunięcia z indeksu → noindex
- Strony z prywatnymi danymi → noindex + ewentualnie robots.txt

Uwaga: Nie blokuj w robots.txt strony z noindex - Google nie zobaczy tagu i może zaindeksować stronę.

Testowanie i debugowanie robots.txt

Narzędzia do testowania:
1. Google Search Console → Ustawienia → Narzędzie do testowania robots.txt
2. Bing Webmaster Tools - podobne narzędzie
3. Technicalseo.com/robots-txt-tester

Co sprawdzić:
- Czy ważne strony są dostępne
- Czy blokowane są właściwe sekcje
- Czy sitemap jest poprawnie wskazana
- Czy nie ma literówek w ścieżkach

Debugowanie problemów:
1. Sprawdź czy plik jest dostępny (200 OK)
2. Zweryfikuj składnię
3. Testuj konkretne URL w narzędziu GSC
4. Sprawdź czy nie ma sprzecznych reguł

Dla WordPressa:
Domyślny robots.txt generowany przez WP jest zwykle OK. Yoast SEO pozwala edytować go z poziomu panelu.

Najczęściej zadawane pytania

Czy robots.txt jest wymagany?

Nie jest wymagany. Brak pliku oznacza, że roboty mogą crawlować całą stronę. Jednak warto go mieć dla optymalizacji crawl budget i wskazania sitemap.

Czy roboty zawsze respektują robots.txt?

Renomowane wyszukiwarki (Google, Bing) respektują. Złośliwe boty, scrapery i spamerzy zwykle ignorują. Robots.txt to sugestia, nie zabezpieczenie.

Obecność Online

Marketing & Promocja

Kreacja & Rozwój

Robots.txt - kompletny przewodnik po konfiguracji

Krótka odpowiedź

Podstawy robots.txt

Co blokować w robots.txt

Robots.txt vs meta robots noindex

Testowanie i debugowanie robots.txt

Wspomniane narzędzia

Najczęściej zadawane pytania

Krzysztof Czapnik

Chcesz być wyżej w Google?

Potrzebujesz pomocy specjalisty?