Analiza logów serwera dla SEO - jak monitorować crawlowanie
Logi serwera to kopalnia wiedzy o tym, jak Google faktycznie crawluje Twoją stronę. W przeciwieństwie do Search Console, pokazują każdą wizytę Googlebota - także nieudane, przekierowania i zablokowane. Poznaj jak analizować logi dla lepszego SEO.
Krótka odpowiedź
Dlaczego analizować logi serwera
Co Search Console NIE pokazuje:
- Strony zablokowane w robots.txt (crawlowane, ale nie parsowane)
- Nieistniejące strony (404) które Google próbuje crawlować
- Dokładna częstotliwość crawlowania każdej strony
- Response time dla Googlebota
- Przekierowania widoczne przez bota
Co logi pokazują:
- Każde request Googlebot (nie tylko sukces)
- Timestamp - kiedy dokładnie crawluje
- Status code - 200, 301, 404, 500
- Response time - jak szybko serwer odpowiada
- User-Agent - który bot (Desktop, Mobile, Images)
Kiedy analiza logów jest szczególnie ważna:
- Duże strony (10k+ URL-i)
- Problemy z indeksacją
- Po migracji lub redesignie
- E-commerce z wieloma produktami
- Strony z dynamic rendering
Jak pozyskać i przygotować logi
Źródła logów:
- cPanel/Plesk: sekcja Raw Access Logs
- Apache: /var/log/apache2/access.log
- Nginx: /var/log/nginx/access.log
- Cloudflare: Enterprise plan lub Workers
- CDN/WAF: Często mają własne logi
Format logów (Combined Log Format):
```
66.249.66.1 - - [10/Jan/2024:12:00:00 +0000] "GET /page.html HTTP/1.1" 200 5432 "-" "Googlebot/2.1"
```
- IP, data, request, status, size, user-agent
Filtrowanie Googlebot:
Szukaj User-Agent zawierającego:
- Googlebot
- Googlebot-Mobile
- Googlebot-Image
- Googlebot-Video
- AdsBot-Google
Uwaga na fake Googlebot:
Weryfikuj IP - prawdziwy Googlebot pochodzi z sieci Google (66.249.x.x, 64.233.x.x). Fake boty mają inne IP.
Okres danych:
- Minimum 30 dni dla analizy
- Idealne: 3-6 miesięcy
- Im więcej danych, tym lepsze wnioski
Kluczowe metryki do analizy
1. Crawl frequency per URL:
- Jak często każda strona jest crawlowana
- Ważne strony powinny być częściej
- Strony uncrawled przez 90+ dni = problem
2. Status codes:
- 200: OK
- 301/302: Przekierowania (czy za dużo?)
- 404: Nie znaleziono (skąd Google zna te URL-e?)
- 500: Błędy serwera (krytyczne!)
3. Response time:
- Czas odpowiedzi dla Googlebot
- >500ms = wolno, może wpływać na crawl rate
- Porównaj z response time dla użytkowników
4. Crawl budget waste:
- Ile requestów na strony nieindeksowane (noindex, redirect, 404)
- Ile na parametry URL, filtry, duplikaty
- Procent wartościowego crawlowania
5. Fresh content crawling:
- Czy nowe strony są szybko odkrywane
- Czas od publikacji do pierwszego crawla
6. Googlebot Desktop vs Mobile:
- Który bot częściej odwiedza
- Mobile-first: Mobile powinien dominować
Narzędzia do analizy logów
Screaming Frog Log File Analyser:
- Desktop app, jednorazowy koszt
- Import logów, filtrowanie botów
- Raporty: crawl frequency, status codes, orphan pages
- Integracja z crawlem SF
Oncrawl:
- Cloud-based, SaaS
- Zaawansowana analiza i segmentacja
- Historyczne porównania
- Droższe, dla dużych stron
Botify:
- Enterprise-level
- Real-time log analysis
- Integracja z crawlami i Search Console
- Najdroższe, dla mega-sites
JetOctopus:
- Dobry balans cena/funkcje
- Logs + crawl + GSC w jednym
- Alerting
DIY (dla zaawansowanych):
- ELK Stack (Elasticsearch, Logstash, Kibana)
- Python + pandas
- Google BigQuery dla dużych wolumenów
Co analizować:
1. Które strony nigdy nie są crawlowane
2. Które strony są over-crawled (marnują budżet)
3. Błędy 4xx i 5xx
4. Łańcuchy przekierowań
5. Response time spikes