Robots.txt és noindex használata haladó szinten

Robots.txt és noindex használata haladó szinten – A keresőmotorok kontrolljának művészete

A technikai SEO egyik legérzékenyebb és legveszélyesebb területe a keresőmotorok viselkedésének irányítása. Az itt elkövetett hibák gyakran nem csupán rangsorolási problémát okoznak, hanem a weboldal teljes láthatatlanságát eredményezhetik a keresőkben. A két fő eszköz, amellyel ezt a kontrollt gyakoroljuk: a robots.txt fájl és a noindex meta tag.

A kettő közti különbség nem csupán technikai, hanem koncepcionális is. A SEO-s szakmai érettség egyik jele, hogy valaki tudatosan, kontextusfüggően használja a megfelelő eszközt a megfelelő célra. Ez a cikk azoknak szól, akik már nem alapozó szinten vannak, hanem rendszeresen dolgoznak weboldalak indexelési logikájával, crawl útvonalakkal és feltérképezési stratégiával.

A robots.txt és noindex szerepe a SEO-ban

Mindkét eszköz a keresőmotorok viselkedésének szabályozására szolgál, de eltérő módon:

A robots.txt fájl azt mondja meg a keresőrobotnak, hogy mit ne térképezzen fel.
A noindex meta tag azt mondja, hogy az adott oldalt ne indexelje, akkor sem, ha már feltérképezte.

Ez a különbség finom, de kritikus jelentőségű. A robots.txt egy ajtózár, a noindex egy „ne írj rólam” tábla. Ha zárva az ajtó, a robot nem látja a tartalmat. Ha nincs zárva, de van rajta tiltás, akkor látja, de nem jeleníti meg.

Mikor használjunk robots.txt fájlt?

A robots.txt a szerver gyökérkönyvtárában található fájl, amely minden keresőrobotnak az elsőként elérhető dokumentum. Ez alapján dönti el a bot, hogy mely útvonalakat térképezheti fel.

Használati esetek:

Adminisztrációs felületek (/wp-admin/)
Kosár, keresés, belső szűrés (/search/, /filter/)
Ugyanazon tartalommal rendelkező URL-ek kizárása
Erőforrások, amelyeket nem kell indexálni (de óvatosan a CSS és JS fájlokkal!)

Példa:

A robots.txt NEM biztosít indexelési védelmet, ha egy oldalra mutat külső link. A Google a címét ismerheti, és akár snippetként meg is jelenítheti. Ezért jön képbe a noindex.

A noindex meta tag pontos használata

A noindex HTML meta tag a következőképpen néz ki:

Ez azt jelenti, hogy az oldalt nem szabad indexelni, viszont a rajta található linkeket a robot kövesse.

Ez is érdekelhet: Google rangsorolási szempontok: Hogyan érhetsz el jobb helyezést a keresőben?

Használati esetek:

Duplikált tartalmak (pl. kategória archívum, címkék)
Ideiglenes oldalak
Fizetős tartalom előszobái
Oldalak, amelyek nem hordoznak SEO értéket

Fontos: a noindex csak akkor működik, ha az oldalt a keresőrobot fel tudja térképezni. Ha robots.txt blokkolja, a noindex sem kerül érvényesítésre.

A két eszköz kombinálása – és annak buktatói

A leggyakoribb hiba, amit még haladó SEO-sok is elkövetnek, amikor egy noindex oldalhoz Disallow szabályt is írnak a robots.txt fájlba. Ez megakadályozza, hogy a keresőbot lássa a noindex tag-et, így az oldal továbbra is indexelve marad.

Helytelen kombináció:

A Google nem tudja értelmezni a noindex utasítást, mert nem fér hozzá a fájlhoz.

Megoldás: csak noindex, ha az oldal elérhető, és szeretnénk azt kizárni az indexből, de nem a feltérképezésből.

Haladó tippek és forgatókönyvek

1. Paraméteres URL-ek kezelése

Egyik legnagyobb crawl budget faló a duplikált tartalom paraméterekkel. Itt a legjobb, ha:

canonical tag-gel jelöljük az eredeti oldalt
robots.txt-ben Disallow a paraméteres URL-ekre
vagy noindex a kevésbé fontos verziókon

2. Index bloat visszafogása

Ha túl sok, SEO szempontból irreleváns oldal van indexelve (pl. címkék, régi dátum szerinti archívum), akkor noindex tag segítségével szűkíthetjük az indexet, hogy a robotok a lényeges oldalakra koncentráljanak.

3. Ütemezett indexelésmenedzsment

Dinamikus oldalaknál vagy szezonálisan változó tartalmaknál célszerű lehet noindex → index ciklusokkal dolgozni. Például akciós oldalak, amelyek kampány után inaktiválódnak.

Robots.txt – esettanulmányok hibákból

Sitemap blokkolása: egyes oldalak véletlenül letiltották a /sitemap.xml fájlt
Teljes /wp-content/ tiltása: ezzel megakadályozzák a CSS/JS renderelést
Disallow minden: rossz példányban került éles szerverre (pl. staging környezetből)
Wildcard túlhasználata: pl. /* vagy *? – túl agresszív tiltás

Mindezek rangsorolási és láthatósági problémákhoz vezethetnek.

Search Console használata robots és noindex ellenőrzésre

A Google Search Console Index lefedettség és URL ellenőrző eszköze egyaránt alkalmas arra, hogy ellenőrizzük:

Látható-e az oldal a Google számára?
Milyen utasításokat kap a robots.txt vagy a meta tag alapján?
Mi az aktuális indexelési státusza?

Ez is érdekelhet: Hogyan találhatunk nagy potenciállal rendelkező kulcsszavakat a SEO-hoz

A „Lefedettség” fül alatt figyeljük a Kizárva állapotokat: gyakori figyelmeztetés a Feltérképezve – jelenleg nincs indexelve vagy a Blokkolva robots.txt által.

Záró gondolat – a kontroll művészete

A robots.txt és a noindex két precíziós eszköz, amelyeket stratégiai szinten kell alkalmazni. A SEO nemcsak arról szól, hogy mit mutatunk meg a keresőknek – hanem arról is, hogy mit nem. Aki ezeket nem tudja finoman, célzottan használni, az vagy túl sokat mutat, vagy véletlenül elrejti a legfontosabb tartalmait.

2025-ben a keresőrobotok kifinomultabbak, de nem tökéletesek. Épp ezért egy tudatosan megtervezett indexelési stratégia – amelyben a robots.txt és a noindex is a helyén van – nem extra, hanem SEO alapkészség.

SEO blog