Mi az a Robots.txt fájl?

A Robots.txt fájl értékes adatokkal szolgál az internetet vizsgáló keresőrendszerek számára. Mielőtt megvizsgálná webhelye oldalait, a keresőrobotok ellenőrzik ezt a fájlt. Az ilyen eljárásnak köszönhetően növelhetik a szkennelés hatékonyságát. Ezzel segíti a keresőrendszereket, hogy a webhelyén található legfontosabb adatok indexelését először elvégezzék. De ez csak akkor lehetséges, ha megfelelően konfigurálta a robots.txt fájlt.

Csakúgy, mint a robots.txt fájl utasításai, a robots metacímkében található noindex utasítás nem több, mint egy ajánlás a robotok számára. Ez az oka annak, hogy nem tudják garantálni, hogy a lezárt oldalak nem kerülnek indexelésre és nem kerülnek be az indexbe. A garanciák ebben az ügyben nem állnak rendelkezésre. Ha indexelés céljából be kell zárnia webhelye egy részét, jelszóval zárhatja be a könyvtárakat .

Fontos! A noindex direktíva hatékony működéséhez az oldalt nem blokkolhatja robots.txt fájl. Ha az oldalt egy robots.txt fájl blokkolja, a robot soha nem fogja látni a noindex utasítást, és az oldal továbbra is megjelenhet a keresési eredmények között, például ha más oldalak hivatkoznak rá.
Google Search Console Súgó

Ha webhelyén nem található robot txt fájl , akkor webhelyét teljes mértékben feltérképezi. Ez azt jelenti, hogy minden webhely oldala bekerül a keresési indexbe, ami komoly problémákat okozhat a SEO számára.

Robots.txt szintaxis

User-Agent: az a robot, amelyre a következő szabályok vonatkoznak (például ” Googlebot „). A user-agent karakterlánc egy paraméter, amelyet a webböngészők nevükként használnak. De nem csak a böngésző nevét tartalmazza, hanem az operációs rendszer verzióját és egyéb paramétereket is. A felhasználói ügynöknek köszönhetően számos paramétert meghatározhat: operációs rendszer neve, verziója; ellenőrizze az eszközt, amelyre a böngésző telepítve van; meghatározza a böngésző funkcióit.

Disallow: azok az oldalak, amelyeket be szeretne zárni a hozzáférés érdekében (minden új sor elején megadhatja az utasítások nagy listáját is). Minden User-Agent / Disallow csoportot üres sorral kell felosztani. De nem üres karakterláncok nem fordulhatnak elő a csoporton belül (a User-Agent és az utolsó Disallow direktíva között). Óvatosan használja az utasítást, mert néhány fontos oldalt a robots.txt véletlenül letilthat.

Ez is érdekelhet:  A GOOGLE ELINDÍTOTTA A MOBIL INDEXELÉST!

Hash jel (#) használható, ha szükséges kommentárokat hagyni a robots.txt fájlban az aktuális sorhoz. A hash jel után megemlített dolgok figyelmen kívül maradnak. Ez a megjegyzés a teljes sorra és az irányelvek utáni végére egyaránt vonatkozik. A katalógusok és a fájlnevek jól használhatók a regiszterben: a keresőrendszer a «Katalógus», «Katalógus» és «KATALÓGUS» különböző direktívákat fogadja el.

Gazda: a Yandex számára a fő tükörhely megjelölésére szolgál. Éppen ezért, ha oldalanként 301-es átirányítást hajt végre két webhely összeillesztéséhez, akkor nem kell megismételnie a robots.txt fájl eljárását (a duplikált webhelyen). Így a Yandex észleli az említett direktívát a webhelyen, amelyet meg kell ragadni.

Feltérképezési késleltetés: korlátozhatja webhelye bejárásának sebességét, ami nagy hasznot hoz a webhely magas látogatottsági gyakorisága esetén. Ez a lehetőség azért van engedélyezve, mert elkerülhető a szervere többletterhelésével kapcsolatos problémák, amelyeket a webhelyen található információkat feldolgozó különféle keresőrendszerek okoznak.

Reguláris kifejezések: a direktívák rugalmasabb beállításához két alább említett szimbólumot használhat:
* (csillag) – bármilyen szimbólumsorozatot jelöl,
$ (dollárjel) – a sor végét jelöli.

A Robots.txt konfigurálása: Szabályok és példák

Tiltsa le a teljes webhely vizsgálatát

User-agent: * Disallow: /

Ezt az utasítást kell alkalmazni, amikor új webhelyet hoz létre, és aldomaineket használ a hozzáférés biztosításához.
Amikor egy új webhelyen dolgoznak, a webfejlesztők gyakran elfelejtik bezárni a webhely bizonyos részét indexelés céljából, és ennek eredményeként az indexrendszerek feldolgozzák annak teljes másolatát. Ha ilyen hiba történt, a fődomainnek oldalanként 301-es átirányításon kell átesnie.

Engedély a teljes webhely feltérképezésére

User-agent: * Disallow:

Egy adott mappa feltérképezésének tiltása

User-agent: Googlebot Disallow: /no-index/

Az adott bot feltérképező oldalának tiltása

User-agent: Googlebot Disallow: /no-index/this-page.html

Egy bizonyos típusú fájlok feltérképezésének tiltása

User-agent: * Disallow: /*.pdf$

Engedély egy oldal feltérképezésére az adott bot számára

User-agent: * Disallow: /no-bots/block-all-bots-except-rogerbot-page.html User-agent: Yandex Allow: /no-bots/block-all-bots-except-Yandex-page.html

Weboldal hivatkozás az oldaltérképre

User-agent: * Disallow: Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Általában azt tekintik problémának, ha a Robots.txt fájl nem tartalmaz XML-webhelytérkép-fájlra mutató hivatkozást .

Ez is érdekelhet:  Kulcsszavak kannibalizálása: SEO tippekkel a probléma megoldásához

Az irányelv alkalmazásakor figyelembe veendő sajátosságok, ha folyamatosan egyedi tartalommal tölti fel webhelyét:

  • ne adjon hozzá hivatkozást webhelytérképére a robots szövegfájlban;
  • válasszon valami nem szabványos nevet a sitemap.xml fájlnak (például my-new-sitemap.xml, majd adja hozzá ezt a hivatkozást a keresőrendszerekhez a webmesterek segítségével).

 

Disallow vagy Noindex

Ha nem szeretné, hogy egyes oldalak indexelésen menjenek keresztül, a noindex használata javasolt a metatag robotokban. A megvalósításhoz hozzá kell adnia a következő metacímkét az oldal szakaszához:

<meta name="robots" content="noindex, follow">

Ezzel a megközelítéssel a következőket fogja tenni:

  • kerülje az egyes oldalak indexelését a webrobot következő látogatása során (akkor nem kell manuálisan törölnie az oldalt a webmesterek segítségével);
  • sikerül közvetítenie az oldala linklevét.

A Robots.txt jobb az ilyen típusú oldalak bezárásához:

  • webhelyének adminisztratív oldalai;
  • adatok keresése a webhelyen;
  • regisztráció/engedélyezés/jelszó visszaállítás oldalain.

Ezenkívül megtekintheti Darren Taylor, a SEM akadémia alapítója által készített robots.txt oktatóanyagot.

 

Hogyan segítheti a Robots.txt az Ön SEO stratégiáját?

Mindenekelőtt a költségvetés feltérképezéséről van szó. Minden webhely saját feltérképezési költségkerettel rendelkezik, amelyet a keresőmotorok személyesen becsülnek meg. A Robots.txt fájl megakadályozza, hogy webhelye feltérképezzen a keresőrobotok által szükségtelen oldalakat, például ismétlődő oldalakat, kéretlen oldalakat, és nem minőségi oldalakat. A fő probléma az, hogy a keresőmotorok indexe olyasmit kap, aminek nem kellene ott lennie – olyan oldalakat, amelyek nem hoznak semmi hasznot az embereknek, és csak szennyezik a keresést. 

De hogyan árthat ez a SEO-nak? A válasz elég egyszerű. Amikor a keresőrobotok feltérképezés céljából eljutnak a webhelyre, nincsenek beprogramozva a legfontosabb oldalak felfedezésére. Gyakran átvizsgálják a teljes webhelyet az összes oldalával együtt. Így a legfontosabb oldalakat egyszerűen nem lehet beolvasni a korlátozott feltérképezési költségkeret miatt. Ezért a Google vagy bármely más keresőmotor elkezdi körbejárni az Ön webhelyét a kapott információk alapján. Így fennáll a veszélye annak, hogy SEO stratégiája megbukik a nem releváns oldalak miatt.

Ez is érdekelhet:  A technikai SEO fontossága

 

Konklúzió

A robots.txt fájl kritikus komponens a keresőmotorok webhelyek feltérképezésének és indexelésének kezelésében. Útmutatást ad a robotok kereséséhez, lehetővé téve számukra a fontos oldalak rangsorolását és a felesleges oldalak elkerülését, így optimalizálva a feltérképezési költségkeretet. A robots.txt helyes konfigurálása segít megakadályozni, hogy a keresőmotorok ismétlődő, adminisztratív vagy rossz minőségű oldalakat indexeljenek, így biztosítva, hogy csak a hasznos tartalom jelenjen meg a keresési eredmények között. A hibás konfiguráció azonban fontos oldalak figyelmen kívül hagyásához vezethet, ami negatívan befolyásolja a keresőoptimalizálást. Alapvető fontosságú, hogy a webmesterek bölcsen használják a robots.txt fájlt, egyensúlyba hozva bizonyos oldalak blokkolásának szükségességét, miközben biztosítják, hogy az értékes tartalom elérhető legyen az indexeléshez, ezáltal támogatva a hatékony keresőoptimalizálási stratégiát.