Robots.txt és noindex használata haladó szinten – A keresőmotorok kontrolljának művészete

A technikai SEO egyik legérzékenyebb és legveszélyesebb területe a keresőmotorok viselkedésének irányítása. Az itt elkövetett hibák gyakran nem csupán rangsorolási problémát okoznak, hanem a weboldal teljes láthatatlanságát eredményezhetik a keresőkben. A két fő eszköz, amellyel ezt a kontrollt gyakoroljuk: a robots.txt fájl és a noindex meta tag.

A kettő közti különbség nem csupán technikai, hanem koncepcionális is. A SEO-s szakmai érettség egyik jele, hogy valaki tudatosan, kontextusfüggően használja a megfelelő eszközt a megfelelő célra. Ez a cikk azoknak szól, akik már nem alapozó szinten vannak, hanem rendszeresen dolgoznak weboldalak indexelési logikájával, crawl útvonalakkal és feltérképezési stratégiával.


A robots.txt és noindex szerepe a SEO-ban

Mindkét eszköz a keresőmotorok viselkedésének szabályozására szolgál, de eltérő módon:

  • A robots.txt fájl azt mondja meg a keresőrobotnak, hogy mit ne térképezzen fel.

  • A noindex meta tag azt mondja, hogy az adott oldalt ne indexelje, akkor sem, ha már feltérképezte.

Ez a különbség finom, de kritikus jelentőségű. A robots.txt egy ajtózár, a noindex egy „ne írj rólam” tábla. Ha zárva az ajtó, a robot nem látja a tartalmat. Ha nincs zárva, de van rajta tiltás, akkor látja, de nem jeleníti meg.


Mikor használjunk robots.txt fájlt?

A robots.txt a szerver gyökérkönyvtárában található fájl, amely minden keresőrobotnak az elsőként elérhető dokumentum. Ez alapján dönti el a bot, hogy mely útvonalakat térképezheti fel.

Használati esetek:

  • Adminisztrációs felületek (/wp-admin/)

  • Kosár, keresés, belső szűrés (/search/, /filter/)

  • Ugyanazon tartalommal rendelkező URL-ek kizárása

  • Erőforrások, amelyeket nem kell indexálni (de óvatosan a CSS és JS fájlokkal!)

Példa:

User-agent: *
Disallow: /cart/
Disallow: /search/
Disallow: /*.php$

A robots.txt NEM biztosít indexelési védelmet, ha egy oldalra mutat külső link. A Google a címét ismerheti, és akár snippetként meg is jelenítheti. Ezért jön képbe a noindex.


A noindex meta tag pontos használata

A noindex HTML meta tag a következőképpen néz ki:

<meta name="robots" content="noindex, follow">

Ez azt jelenti, hogy az oldalt nem szabad indexelni, viszont a rajta található linkeket a robot kövesse.

Ez is érdekelhet:  25 tipp a tartalom optimalizálásához az emberek és a keresőmotorok számára

Használati esetek:

  • Duplikált tartalmak (pl. kategória archívum, címkék)

  • Ideiglenes oldalak

  • Fizetős tartalom előszobái

  • Oldalak, amelyek nem hordoznak SEO értéket

Fontos: a noindex csak akkor működik, ha az oldalt a keresőrobot fel tudja térképezni. Ha robots.txt blokkolja, a noindex sem kerül érvényesítésre.


A két eszköz kombinálása – és annak buktatói

A leggyakoribb hiba, amit még haladó SEO-sok is elkövetnek, amikor egy noindex oldalhoz Disallow szabályt is írnak a robots.txt fájlba. Ez megakadályozza, hogy a keresőbot lássa a noindex tag-et, így az oldal továbbra is indexelve marad.

Helytelen kombináció:

robots.txt:
Disallow: /thanks/
HTML-ben:
<meta name=„robots” content=„noindex”>

A Google nem tudja értelmezni a noindex utasítást, mert nem fér hozzá a fájlhoz.

Megoldás: csak noindex, ha az oldal elérhető, és szeretnénk azt kizárni az indexből, de nem a feltérképezésből.


Haladó tippek és forgatókönyvek

1. Paraméteres URL-ek kezelése

Egyik legnagyobb crawl budget faló a duplikált tartalom paraméterekkel. Itt a legjobb, ha:

  • canonical tag-gel jelöljük az eredeti oldalt

  • robots.txt-ben Disallow a paraméteres URL-ekre

  • vagy noindex a kevésbé fontos verziókon

2. Index bloat visszafogása

Ha túl sok, SEO szempontból irreleváns oldal van indexelve (pl. címkék, régi dátum szerinti archívum), akkor noindex tag segítségével szűkíthetjük az indexet, hogy a robotok a lényeges oldalakra koncentráljanak.

3. Ütemezett indexelésmenedzsment

Dinamikus oldalaknál vagy szezonálisan változó tartalmaknál célszerű lehet noindex → index ciklusokkal dolgozni. Például akciós oldalak, amelyek kampány után inaktiválódnak.


Robots.txt – esettanulmányok hibákból

  • Sitemap blokkolása: egyes oldalak véletlenül letiltották a /sitemap.xml fájlt

  • Teljes /wp-content/ tiltása: ezzel megakadályozzák a CSS/JS renderelést

  • Disallow minden: rossz példányban került éles szerverre (pl. staging környezetből)

  • Wildcard túlhasználata: pl. /* vagy *? – túl agresszív tiltás

Mindezek rangsorolási és láthatósági problémákhoz vezethetnek.


Search Console használata robots és noindex ellenőrzésre

A Google Search Console Index lefedettség és URL ellenőrző eszköze egyaránt alkalmas arra, hogy ellenőrizzük:

  • Látható-e az oldal a Google számára?

  • Milyen utasításokat kap a robots.txt vagy a meta tag alapján?

  • Mi az aktuális indexelési státusza?

Ez is érdekelhet:  Hogyan jelenhetek meg a Google Discoverben?

A „Lefedettség” fül alatt figyeljük a Kizárva állapotokat: gyakori figyelmeztetés a Feltérképezve – jelenleg nincs indexelve vagy a Blokkolva robots.txt által.


Záró gondolat – a kontroll művészete

A robots.txt és a noindex két precíziós eszköz, amelyeket stratégiai szinten kell alkalmazni. A SEO nemcsak arról szól, hogy mit mutatunk meg a keresőknek – hanem arról is, hogy mit nem. Aki ezeket nem tudja finoman, célzottan használni, az vagy túl sokat mutat, vagy véletlenül elrejti a legfontosabb tartalmait.

2025-ben a keresőrobotok kifinomultabbak, de nem tökéletesek. Épp ezért egy tudatosan megtervezett indexelési stratégia – amelyben a robots.txt és a noindex is a helyén van – nem extra, hanem SEO alapkészség.