Crawl budget optimalizálás: Hogyan irányítsuk a keresőrobotokat?

Crawl budget optimalizálás: Hogyan irányítsuk a keresőrobotokat? – Mélytechnikai SEO Útmutató 2025-re

A keresőoptimalizálás egy olyan összetett rendszer, ahol a technikai réteg egyre jelentősebbé válik. A crawl budget, magyarul „feltérképezési költségvetés”, sokáig egy homályos, csak nagy oldalakra vonatkozó fogalomként élt a köztudatban. 2025-ben ez a megközelítés már nem állja meg a helyét: a Google robotjainak viselkedése és erőforrás-elosztása már közepes méretű, sőt kisvállalkozások webhelyeinél is érezhető hatással van a rangsorolásra.

Ez a cikk egy haladó szintű útmutató SEO szakembereknek és technikai döntéshozóknak arról, hogyan irányítsuk tudatosan a keresőrobotokat, hogyan optimalizáljuk az erőforrásaikat, és hogyan biztosítsuk, hogy az oldalaink, amelyek számítanak, valóban be is legyenek indexelve.

Mi az a crawl budget – és miért számít?

A crawl budget a Google által egy adott időintervallum alatt egy domainre fordított feltérképezési kapacitást jelenti. Nem egy fix érték, hanem dinamikusan változik az oldal technikai állapota, népszerűsége, frissülési gyakorisága és szerversebessége alapján.

Két tényező határozza meg:

Crawl rate limit – a szerver mennyit bír ki
Crawl demand – mennyire „érdekes” a Google számára a tartalom

Ez a két elem együtt alkotja azt a maximum oldalszámot, amit a Googlebot egy adott időszakban hajlandó és képes feldolgozni.

Kinek fontos a crawl budget?

Tévhitekkel ellentétben nem csak a több ezer oldalas weboldalaknak kell foglalkozniuk a crawl budgettel. A következő esetekben kiemelten fontos:

Többnyelvű vagy lokalizált webhelyek (sok aloldal)
E-kereskedelmi oldalak (kategóriák, termékvariációk)
Blogok sok archív tartalommal
Oldalak gyakori tartalomfrissítéssel
Automatizált vagy paraméteres URL-struktúrák

Ha nem optimalizáljuk tudatosan a feltérképezést, a Google egyszerűen nem foglalkozik az összes oldalunkkal, vagy rossz oldalakra pazarolja az erőforrásait.

Hogyan lehet irányítani a keresőrobotokat?

1. robots.txt fájl finomhangolása

A robots.txt az első védelmi vonal. Ez a fájl mondja meg a keresőrobotoknak, hogy mit ne térképezzenek fel.

Zárjuk ki a paraméteres URL-eket, filtereket, keresési eredményeket.
Kerüljük a hasznos tartalmak véletlen kizárását.
Ne zárjuk ki a JavaScript vagy CSS fájlokat – ezek szükségesek a rendereléshez.

Ez is érdekelhet: A Google Core Web Vitals mutatóinak megfejtése: Útmutató a SEO sikeréhez

Példa egy jól optimalizált robots.txt részletre:

2. Sitemap optimalizálás – kevesebb, de célzottabb

A sitemap nem garantál indexelést, de jelzi a prioritásokat. Ne tegyünk bele felesleges URL-eket (pl. noindexelt vagy redirectelt oldalak). Tartsuk karban, használjunk több kisebb sitemapet, ha sok az URL.

Prioritások SEO szempontból:

Friss tartalmak előre
Magas forgalmú oldalakat külön kezelni
Csak 200-as státuszú, indexelhető URL-ek szerepeljenek benne

3. Belső linkelés és crawl útvonalak kialakítása

Ha az oldal nincs linkelve sehol belülről, a keresőrobot nem találja meg. Orphan page = 0 esély indexelésre.

Fő navigációs menüből a kulcstartalmak legyenek elérhetőek
Alacsony prioritású tartalmak linkelése csak másodlagos szinteken
A strukturált belső linkelés segíti a feltérképezés irányítását

4. HTTP státuszok rendben tartása

301-es redirect láncok: felesleges crawl költség
404-es oldalak: pazarlás, ha sok van
Soft 404: hibásan megjelölt, de indexelhető oldalak
500-as hibák: leállások esetén romlik a crawl rate limit

Folyamatosan monitorozzuk a Search Console és a log fájlok alapján.

5. Paraméteres URL-ek és duplikáció kezelése

A URL-paraméterek óriási crawl budget falók lehetnek, ha nincs szabályozva:

Pl. ?size=XL&color=blue – ugyanaz a tartalom, de új URL
Használjunk canonical tag-et, vagy disallow a robots.txt-ben
Google Search Console paraméterkezelője (ha elérhető) segíthet

6. Oldalak prioritása és frissítésének hatása

A Google gyakrabban térképezi fel azokat az oldalakat, amelyek:

Gyakran frissülnek
Több linket kapnak
Fontos szerepet töltenek be az oldalon belül

Ezért használjunk belső linkelést, sitemap frissítést, és ne „felejtsük el” a cornerstone típusú tartalmakat hónapokra.

7. Crawl-delay – mikor használjuk?

A crawl-delay direktíva beállítása csak bizonyos botok esetében működik. A Googlebot nem veszi figyelembe.

Ennek ellenére hasznos lehet nagy szerverterhelésű oldalaknál, ha a BingBot vagy más másodlagos keresők túlterhelik a szervert.

Ez is érdekelhet: 25 tipp a tartalom optimalizálásához az emberek és a keresőmotorok számára

8. Log fájl elemzés – a rejtett aranybánya

A legpontosabb képet arról, hogy a keresőrobot valójában mit látogat, a szerver logfájlokból kapjuk.

Melyik URL-eket térképezi fel rendszeresen?
Melyikeket hagyja figyelmen kívül?
Milyen gyakorisággal jön vissza?

Eszközök: Screaming Frog Log Analyzer, JetOctopus, OnCrawl

Gyakori hibák crawl budget szempontból

Nincs sitemap beküldve a Search Console-ba
Dinamikusan generált szűrők indexelhetők
Blog archívum oldalak (címkék, dátum szerinti) pazarolják az erőforrást
Túl hosszú redirect láncok
Paraméteres URL-ek duplikálása

Összefoglalás: stratégiai szemlélet 2025-re

A crawl budget nem csupán technikai SEO kérdés – stratégiai erőforrás-gazdálkodás. Az organikus siker egyik alapja, hogy a keresőrobot a megfelelő oldalakat látja a megfelelő időben. Minél jobban optimalizáljuk a feltérképezés útvonalait, annál biztosabb, hogy a valóban fontos tartalmaink eljutnak a találati listák élére.

Aki 2025-ben nem tudatosan kezeli a keresőrobotokat, az gyakorlatilag lemond arról, hogy a webhelyének minden értékes oldala indexálásra kerüljön.

SEO blog