Crawl budget - optymalizacja crawlowania przez Google
Crawl budget to liczba stron, które Google crawluje na Twojej witrynie w określonym czasie. Dla małych stron nie ma to znaczenia, ale dla dużych serwisów i sklepów z tysiącami podstron - optymalizacja crawl budgetu jest kluczowa dla SEO.
Krótka odpowiedź
Czym dokładnie jest crawl budget
Google definiuje crawl budget jako kombinację dwóch czynników:
Crawl rate limit - maksymalna liczba jednoczesnych połączeń i opóźnienie między requestami, które Googlebot może wykonać bez przeciążenia serwera.
Crawl demand - jak bardzo Google chce crawlować stronę na podstawie popularności i świeżości treści.
Kiedy crawl budget ma znaczenie:
- Strony z >10,000 podstron
- Sklepy z dużą liczbą produktów
- Serwisy z dynamicznie generowanymi URL-ami
- Strony z wolnym serwerem
Kiedy nie musisz się martwić:
- Małe strony (<1000 podstron)
- Szybki hosting
- Brak problemów z indeksacją w Search Console
Jak sprawdzić crawl budget
Google Search Console > Ustawienia > Statystyki indeksowania:
- Całkowita liczba żądań crawlowania
- Średni czas odpowiedzi serwera
- Rozkład crawlowania po typach plików
- Kody odpowiedzi HTTP
Analiza logów serwera:
Najdokładniejsza metoda. Filtruj logi po User-Agent Googlebot i analizuj:
- Które URL-e są crawlowane najczęściej
- Które strony są pomijane
- Błędy 404, 500 podczas crawlowania
- Czas odpowiedzi dla różnych URL-i
Narzędzia do analizy logów:
- Screaming Frog Log Analyzer
- Oncrawl
- Botify
- JetOctopus
Techniki optymalizacji crawl budget
1. Zablokuj nieistotne strony w robots.txt:
- Strony filtrowania i sortowania
- Wersje do druku
- Strony koszyka i checkout
- Wyszukiwarka wewnętrzna
- Panele administracyjne
2. Usuń duplikaty treści:
- Ustaw kanoniczne URL-e
- Przekieruj duplikaty 301
- Ujednolicij www/non-www i http/https
3. Popraw szybkość serwera:
- Szybszy hosting
- Cache na poziomie serwera
- CDN dla statycznych zasobów
- Optymalizacja bazy danych
4. Wyczyść strukturę linków:
- Usuń linki do nieistniejących stron
- Zminimalizuj łańcuchy przekierowań
- Linkuj do ważnych stron z poziomu nawigacji
5. Aktualizuj sitemap:
- Tylko indeksowalne URL-e
- Usuń przekierowania i błędy 404
- Regularnie aktualizuj lastmod
Typowe problemy marnujące crawl budget
Parametry URL generujące duplikaty:
```
/produkty?sort=cena
/produkty?sort=nazwa
/produkty?kolor=czerwony&sort=cena
```
Rozwiązanie: robots.txt lub parameter handling w Search Console.
Nieskończone przestrzenie crawlowania:
Kalendarze, filtry z nieskończonymi kombinacjami. Googlebot może utknąć crawlując miliony bezwartościowych URL-i.
Soft 404:
Strony zwracające kod 200 ale wyświetlające komunikat "nie znaleziono". Google musi je crawlować, żeby sprawdzić czy naprawdę są puste.
Łańcuchy przekierowań:
A → B → C → D marnuje crawl budget i rozcieńcza link equity. Max 1-2 przekierowania.
Hacked content:
Zainfekowane strony mogą generować tysiące spamowych URL-i marnujących crawl budget.