Crawl budget optimalizálás: Hogyan irányítsuk a keresőrobotokat? – Mélytechnikai SEO Útmutató 2025-re
A keresőoptimalizálás egy olyan összetett rendszer, ahol a technikai réteg egyre jelentősebbé válik. A crawl budget, magyarul „feltérképezési költségvetés”, sokáig egy homályos, csak nagy oldalakra vonatkozó fogalomként élt a köztudatban. 2025-ben ez a megközelítés már nem állja meg a helyét: a Google robotjainak viselkedése és erőforrás-elosztása már közepes méretű, sőt kisvállalkozások webhelyeinél is érezhető hatással van a rangsorolásra.
Ez a cikk egy haladó szintű útmutató SEO szakembereknek és technikai döntéshozóknak arról, hogyan irányítsuk tudatosan a keresőrobotokat, hogyan optimalizáljuk az erőforrásaikat, és hogyan biztosítsuk, hogy az oldalaink, amelyek számítanak, valóban be is legyenek indexelve.
Mi az a crawl budget – és miért számít?
A crawl budget a Google által egy adott időintervallum alatt egy domainre fordított feltérképezési kapacitást jelenti. Nem egy fix érték, hanem dinamikusan változik az oldal technikai állapota, népszerűsége, frissülési gyakorisága és szerversebessége alapján.
Két tényező határozza meg:
-
Crawl rate limit – a szerver mennyit bír ki
-
Crawl demand – mennyire „érdekes” a Google számára a tartalom
Ez a két elem együtt alkotja azt a maximum oldalszámot, amit a Googlebot egy adott időszakban hajlandó és képes feldolgozni.
Kinek fontos a crawl budget?
Tévhitekkel ellentétben nem csak a több ezer oldalas weboldalaknak kell foglalkozniuk a crawl budgettel. A következő esetekben kiemelten fontos:
-
Többnyelvű vagy lokalizált webhelyek (sok aloldal)
-
E-kereskedelmi oldalak (kategóriák, termékvariációk)
-
Blogok sok archív tartalommal
-
Oldalak gyakori tartalomfrissítéssel
-
Automatizált vagy paraméteres URL-struktúrák
Ha nem optimalizáljuk tudatosan a feltérképezést, a Google egyszerűen nem foglalkozik az összes oldalunkkal, vagy rossz oldalakra pazarolja az erőforrásait.
Hogyan lehet irányítani a keresőrobotokat?
1. robots.txt fájl finomhangolása
A robots.txt
az első védelmi vonal. Ez a fájl mondja meg a keresőrobotoknak, hogy mit ne térképezzenek fel.
-
Zárjuk ki a paraméteres URL-eket, filtereket, keresési eredményeket.
-
Kerüljük a hasznos tartalmak véletlen kizárását.
-
Ne zárjuk ki a JavaScript vagy CSS fájlokat – ezek szükségesek a rendereléshez.
Példa egy jól optimalizált robots.txt részletre:
2. Sitemap optimalizálás – kevesebb, de célzottabb
A sitemap nem garantál indexelést, de jelzi a prioritásokat. Ne tegyünk bele felesleges URL-eket (pl. noindexelt vagy redirectelt oldalak). Tartsuk karban, használjunk több kisebb sitemapet, ha sok az URL.
Prioritások SEO szempontból:
-
Friss tartalmak előre
-
Magas forgalmú oldalakat külön kezelni
-
Csak 200-as státuszú, indexelhető URL-ek szerepeljenek benne
3. Belső linkelés és crawl útvonalak kialakítása
Ha az oldal nincs linkelve sehol belülről, a keresőrobot nem találja meg. Orphan page = 0 esély indexelésre.
-
Fő navigációs menüből a kulcstartalmak legyenek elérhetőek
-
Alacsony prioritású tartalmak linkelése csak másodlagos szinteken
-
A strukturált belső linkelés segíti a feltérképezés irányítását
4. HTTP státuszok rendben tartása
-
301-es redirect láncok: felesleges crawl költség
-
404-es oldalak: pazarlás, ha sok van
-
Soft 404: hibásan megjelölt, de indexelhető oldalak
-
500-as hibák: leállások esetén romlik a crawl rate limit
Folyamatosan monitorozzuk a Search Console és a log fájlok alapján.
5. Paraméteres URL-ek és duplikáció kezelése
A URL-paraméterek óriási crawl budget falók lehetnek, ha nincs szabályozva:
-
Pl.
?size=XL&color=blue
– ugyanaz a tartalom, de új URL -
Használjunk canonical tag-et, vagy disallow a robots.txt-ben
-
Google Search Console paraméterkezelője (ha elérhető) segíthet
6. Oldalak prioritása és frissítésének hatása
A Google gyakrabban térképezi fel azokat az oldalakat, amelyek:
-
Gyakran frissülnek
-
Több linket kapnak
-
Fontos szerepet töltenek be az oldalon belül
Ezért használjunk belső linkelést, sitemap frissítést, és ne „felejtsük el” a cornerstone típusú tartalmakat hónapokra.
7. Crawl-delay – mikor használjuk?
A crawl-delay
direktíva beállítása csak bizonyos botok esetében működik. A Googlebot nem veszi figyelembe.
Ennek ellenére hasznos lehet nagy szerverterhelésű oldalaknál, ha a BingBot vagy más másodlagos keresők túlterhelik a szervert.
8. Log fájl elemzés – a rejtett aranybánya
A legpontosabb képet arról, hogy a keresőrobot valójában mit látogat, a szerver logfájlokból kapjuk.
-
Melyik URL-eket térképezi fel rendszeresen?
-
Melyikeket hagyja figyelmen kívül?
-
Milyen gyakorisággal jön vissza?
Eszközök: Screaming Frog Log Analyzer, JetOctopus, OnCrawl
Gyakori hibák crawl budget szempontból
-
Nincs sitemap beküldve a Search Console-ba
-
Dinamikusan generált szűrők indexelhetők
-
Blog archívum oldalak (címkék, dátum szerinti) pazarolják az erőforrást
-
Túl hosszú redirect láncok
-
Paraméteres URL-ek duplikálása
Összefoglalás: stratégiai szemlélet 2025-re
A crawl budget nem csupán technikai SEO kérdés – stratégiai erőforrás-gazdálkodás. Az organikus siker egyik alapja, hogy a keresőrobot a megfelelő oldalakat látja a megfelelő időben. Minél jobban optimalizáljuk a feltérképezés útvonalait, annál biztosabb, hogy a valóban fontos tartalmaink eljutnak a találati listák élére.
Aki 2025-ben nem tudatosan kezeli a keresőrobotokat, az gyakorlatilag lemond arról, hogy a webhelyének minden értékes oldala indexálásra kerüljön.