Robots.txt - kompletny przewodnik po konfiguracji

Robots.txt to prosty plik tekstowy, który mówi robotom wyszukiwarek co mogą, a czego nie mogą crawlować na Twojej stronie. Źle skonfigurowany może zablokować indeksowanie całej witryny. Dobrze ustawiony optymalizuje crawl budget.

Krótka odpowiedź

Robots.txt to plik w głównym katalogu strony (domena.pl/robots.txt) kontrolujący dostęp robotów. Używa dyrektyw User-agent, Disallow, Allow i Sitemap. Blokuje crawlowanie, ale nie indeksowanie - do tego służy meta robots noindex.

Podstawy robots.txt

Plik robots.txt musi znajdować się w głównym katalogu: https://domena.pl/robots.txt

Podstawowe dyrektywy:
- User-agent: - określa którego robota dotyczy reguła (* = wszystkie)
- Disallow: - blokuje dostęp do ścieżki
- Allow: - zezwala na dostęp (nadpisuje Disallow)
- Sitemap: - wskazuje lokalizację sitemap XML

Przykład podstawowy:
```
User-agent: *
Disallow: /admin/
Disallow: /prywatne/
Allow: /

Sitemap: https://domena.pl/sitemap.xml
```

Ważne: Robots.txt blokuje crawlowanie, nie indeksowanie. Strona może być zaindeksowana bez crawlowania, jeśli są do niej linki.

Co blokować w robots.txt

Warto blokować:
- Panele administracyjne (/admin/, /wp-admin/)
- Strony logowania i koszyka
- Wyszukiwarkę wewnętrzną (/search/, /?s=)
- Strony filtrów i sortowania
- Duplikaty treści (wersje druku, PDF)
- Staging i środowiska testowe

NIE blokuj:
- CSS i JavaScript (Google potrzebuje do renderowania)
- Obrazów (chyba że celowo)
- Ważnych treści

Częste błędy:
- Blokowanie całej strony: Disallow: /
- Blokowanie zasobów potrzebnych do renderowania
- Zostawienie robots.txt z developmentu (blokuje wszystko)

Sprawdzaj w Google Search Console czy nie blokujesz czegoś ważnego.

Robots.txt vs meta robots noindex

To dwa różne mechanizmy o różnym działaniu:

Robots.txt:
- Blokuje crawlowanie
- Robot nie odwiedza strony
- Strona może być zaindeksowana (z anchor textu linków)
- Dobre dla oszczędzania crawl budget

Meta robots noindex:
- Pozwala crawlować
- Blokuje indeksowanie
- Robot musi odwiedzić stronę, żeby zobaczyć tag
- Dobre dla usuwania stron z indeksu

Kiedy co używać:
- Całe sekcje bez wartości SEO → robots.txt
- Pojedyncze strony do usunięcia z indeksu → noindex
- Strony z prywatnymi danymi → noindex + ewentualnie robots.txt

Uwaga: Nie blokuj w robots.txt strony z noindex - Google nie zobaczy tagu i może zaindeksować stronę.

Testowanie i debugowanie robots.txt

Narzędzia do testowania:
1. Google Search Console → Ustawienia → Narzędzie do testowania robots.txt
2. Bing Webmaster Tools - podobne narzędzie
3. Technicalseo.com/robots-txt-tester

Co sprawdzić:
- Czy ważne strony są dostępne
- Czy blokowane są właściwe sekcje
- Czy sitemap jest poprawnie wskazana
- Czy nie ma literówek w ścieżkach

Debugowanie problemów:
1. Sprawdź czy plik jest dostępny (200 OK)
2. Zweryfikuj składnię
3. Testuj konkretne URL w narzędziu GSC
4. Sprawdź czy nie ma sprzecznych reguł

Dla WordPressa:
Domyślny robots.txt generowany przez WP jest zwykle OK. Yoast SEO pozwala edytować go z poziomu panelu.

Wspomniane narzędzia

Google Search Console Bing Webmaster Tools Yoast SEO

Najczęściej zadawane pytania

Czy robots.txt jest wymagany?
Nie jest wymagany. Brak pliku oznacza, że roboty mogą crawlować całą stronę. Jednak warto go mieć dla optymalizacji crawl budget i wskazania sitemap.
Czy roboty zawsze respektują robots.txt?
Renomowane wyszukiwarki (Google, Bing) respektują. Złośliwe boty, scrapery i spamerzy zwykle ignorują. Robots.txt to sugestia, nie zabezpieczenie.
#robots-txt#crawlowanie#technical-seo#indeksowanie#konfiguracja

Potrzebujesz pomocy specjalisty?

Skorzystaj z naszych usług w największych miastach Polski