Robots.txt és noindex használata haladó szinten – A keresőmotorok kontrolljának művészete
A technikai SEO egyik legérzékenyebb és legveszélyesebb területe a keresőmotorok viselkedésének irányítása. Az itt elkövetett hibák gyakran nem csupán rangsorolási problémát okoznak, hanem a weboldal teljes láthatatlanságát eredményezhetik a keresőkben. A két fő eszköz, amellyel ezt a kontrollt gyakoroljuk: a robots.txt
fájl és a noindex
meta tag.
A kettő közti különbség nem csupán technikai, hanem koncepcionális is. A SEO-s szakmai érettség egyik jele, hogy valaki tudatosan, kontextusfüggően használja a megfelelő eszközt a megfelelő célra. Ez a cikk azoknak szól, akik már nem alapozó szinten vannak, hanem rendszeresen dolgoznak weboldalak indexelési logikájával, crawl útvonalakkal és feltérképezési stratégiával.
A robots.txt és noindex szerepe a SEO-ban
Mindkét eszköz a keresőmotorok viselkedésének szabályozására szolgál, de eltérő módon:
-
A robots.txt fájl azt mondja meg a keresőrobotnak, hogy mit ne térképezzen fel.
-
A noindex meta tag azt mondja, hogy az adott oldalt ne indexelje, akkor sem, ha már feltérképezte.
Ez a különbség finom, de kritikus jelentőségű. A robots.txt
egy ajtózár, a noindex
egy „ne írj rólam” tábla. Ha zárva az ajtó, a robot nem látja a tartalmat. Ha nincs zárva, de van rajta tiltás, akkor látja, de nem jeleníti meg.
Mikor használjunk robots.txt fájlt?
A robots.txt
a szerver gyökérkönyvtárában található fájl, amely minden keresőrobotnak az elsőként elérhető dokumentum. Ez alapján dönti el a bot, hogy mely útvonalakat térképezheti fel.
Használati esetek:
-
Adminisztrációs felületek (
/wp-admin/
) -
Kosár, keresés, belső szűrés (
/search/
,/filter/
) -
Ugyanazon tartalommal rendelkező URL-ek kizárása
-
Erőforrások, amelyeket nem kell indexálni (de óvatosan a CSS és JS fájlokkal!)
Példa:
A robots.txt
NEM biztosít indexelési védelmet, ha egy oldalra mutat külső link. A Google a címét ismerheti, és akár snippetként meg is jelenítheti. Ezért jön képbe a noindex
.
A noindex meta tag pontos használata
A noindex
HTML meta tag a következőképpen néz ki:
Ez azt jelenti, hogy az oldalt nem szabad indexelni, viszont a rajta található linkeket a robot kövesse.
Használati esetek:
-
Duplikált tartalmak (pl. kategória archívum, címkék)
-
Ideiglenes oldalak
-
Fizetős tartalom előszobái
-
Oldalak, amelyek nem hordoznak SEO értéket
Fontos: a noindex
csak akkor működik, ha az oldalt a keresőrobot fel tudja térképezni. Ha robots.txt blokkolja, a noindex
sem kerül érvényesítésre.
A két eszköz kombinálása – és annak buktatói
A leggyakoribb hiba, amit még haladó SEO-sok is elkövetnek, amikor egy noindex
oldalhoz Disallow
szabályt is írnak a robots.txt fájlba. Ez megakadályozza, hogy a keresőbot lássa a noindex
tag-et, így az oldal továbbra is indexelve marad.
Helytelen kombináció:
A Google nem tudja értelmezni a noindex
utasítást, mert nem fér hozzá a fájlhoz.
Megoldás: csak noindex
, ha az oldal elérhető, és szeretnénk azt kizárni az indexből, de nem a feltérképezésből.
Haladó tippek és forgatókönyvek
1. Paraméteres URL-ek kezelése
Egyik legnagyobb crawl budget faló a duplikált tartalom paraméterekkel. Itt a legjobb, ha:
-
canonical tag-gel jelöljük az eredeti oldalt
-
robots.txt-ben
Disallow
a paraméteres URL-ekre -
vagy noindex a kevésbé fontos verziókon
2. Index bloat visszafogása
Ha túl sok, SEO szempontból irreleváns oldal van indexelve (pl. címkék, régi dátum szerinti archívum), akkor noindex tag segítségével szűkíthetjük az indexet, hogy a robotok a lényeges oldalakra koncentráljanak.
3. Ütemezett indexelésmenedzsment
Dinamikus oldalaknál vagy szezonálisan változó tartalmaknál célszerű lehet noindex → index ciklusokkal dolgozni. Például akciós oldalak, amelyek kampány után inaktiválódnak.
Robots.txt – esettanulmányok hibákból
-
Sitemap blokkolása: egyes oldalak véletlenül letiltották a
/sitemap.xml
fájlt -
Teljes /wp-content/ tiltása: ezzel megakadályozzák a CSS/JS renderelést
-
Disallow minden: rossz példányban került éles szerverre (pl. staging környezetből)
-
Wildcard túlhasználata: pl.
/*
vagy*?
– túl agresszív tiltás
Mindezek rangsorolási és láthatósági problémákhoz vezethetnek.
Search Console használata robots és noindex ellenőrzésre
A Google Search Console Index lefedettség és URL ellenőrző eszköze egyaránt alkalmas arra, hogy ellenőrizzük:
-
Látható-e az oldal a Google számára?
-
Milyen utasításokat kap a robots.txt vagy a meta tag alapján?
-
Mi az aktuális indexelési státusza?
A „Lefedettség” fül alatt figyeljük a Kizárva
állapotokat: gyakori figyelmeztetés a Feltérképezve – jelenleg nincs indexelve
vagy a Blokkolva robots.txt által
.
Záró gondolat – a kontroll művészete
A robots.txt
és a noindex
két precíziós eszköz, amelyeket stratégiai szinten kell alkalmazni. A SEO nemcsak arról szól, hogy mit mutatunk meg a keresőknek – hanem arról is, hogy mit nem. Aki ezeket nem tudja finoman, célzottan használni, az vagy túl sokat mutat, vagy véletlenül elrejti a legfontosabb tartalmait.
2025-ben a keresőrobotok kifinomultabbak, de nem tökéletesek. Épp ezért egy tudatosan megtervezett indexelési stratégia – amelyben a robots.txt és a noindex is a helyén van – nem extra, hanem SEO alapkészség.