Mi az a Robots.txt fájl?
A Robots.txt fájl értékes adatokkal szolgál az internetet vizsgáló keresőrendszerek számára. Mielőtt megvizsgálná webhelye oldalait, a keresőrobotok ellenőrzik ezt a fájlt. Az ilyen eljárásnak köszönhetően növelhetik a szkennelés hatékonyságát. Ezzel segíti a keresőrendszereket, hogy a webhelyén található legfontosabb adatok indexelését először elvégezzék. De ez csak akkor lehetséges, ha megfelelően konfigurálta a robots.txt fájlt.
Csakúgy, mint a robots.txt fájl utasításai, a robots metacímkében található noindex utasítás nem több, mint egy ajánlás a robotok számára. Ez az oka annak, hogy nem tudják garantálni, hogy a lezárt oldalak nem kerülnek indexelésre és nem kerülnek be az indexbe. A garanciák ebben az ügyben nem állnak rendelkezésre. Ha indexelés céljából be kell zárnia webhelye egy részét, jelszóval zárhatja be a könyvtárakat .
Google Search Console Súgó
Ha webhelyén nem található robot txt fájl , akkor webhelyét teljes mértékben feltérképezi. Ez azt jelenti, hogy minden webhely oldala bekerül a keresési indexbe, ami komoly problémákat okozhat a SEO számára.
Robots.txt szintaxis
User-Agent: az a robot, amelyre a következő szabályok vonatkoznak (például ” Googlebot „). A user-agent karakterlánc egy paraméter, amelyet a webböngészők nevükként használnak. De nem csak a böngésző nevét tartalmazza, hanem az operációs rendszer verzióját és egyéb paramétereket is. A felhasználói ügynöknek köszönhetően számos paramétert meghatározhat: operációs rendszer neve, verziója; ellenőrizze az eszközt, amelyre a böngésző telepítve van; meghatározza a böngésző funkcióit.
Disallow: azok az oldalak, amelyeket be szeretne zárni a hozzáférés érdekében (minden új sor elején megadhatja az utasítások nagy listáját is). Minden User-Agent / Disallow csoportot üres sorral kell felosztani. De nem üres karakterláncok nem fordulhatnak elő a csoporton belül (a User-Agent és az utolsó Disallow direktíva között). Óvatosan használja az utasítást, mert néhány fontos oldalt a robots.txt véletlenül letilthat.
Hash jel (#) használható, ha szükséges kommentárokat hagyni a robots.txt fájlban az aktuális sorhoz. A hash jel után megemlített dolgok figyelmen kívül maradnak. Ez a megjegyzés a teljes sorra és az irányelvek utáni végére egyaránt vonatkozik. A katalógusok és a fájlnevek jól használhatók a regiszterben: a keresőrendszer a «Katalógus», «Katalógus» és «KATALÓGUS» különböző direktívákat fogadja el.
Gazda: a Yandex számára a fő tükörhely megjelölésére szolgál. Éppen ezért, ha oldalanként 301-es átirányítást hajt végre két webhely összeillesztéséhez, akkor nem kell megismételnie a robots.txt fájl eljárását (a duplikált webhelyen). Így a Yandex észleli az említett direktívát a webhelyen, amelyet meg kell ragadni.
Feltérképezési késleltetés: korlátozhatja webhelye bejárásának sebességét, ami nagy hasznot hoz a webhely magas látogatottsági gyakorisága esetén. Ez a lehetőség azért van engedélyezve, mert elkerülhető a szervere többletterhelésével kapcsolatos problémák, amelyeket a webhelyen található információkat feldolgozó különféle keresőrendszerek okoznak.
Reguláris kifejezések: a direktívák rugalmasabb beállításához két alább említett szimbólumot használhat:
* (csillag) – bármilyen szimbólumsorozatot jelöl,
$ (dollárjel) – a sor végét jelöli.
A Robots.txt konfigurálása: Szabályok és példák
Tiltsa le a teljes webhely vizsgálatát
User-agent: * Disallow: /
Ezt az utasítást kell alkalmazni, amikor új webhelyet hoz létre, és aldomaineket használ a hozzáférés biztosításához.
Amikor egy új webhelyen dolgoznak, a webfejlesztők gyakran elfelejtik bezárni a webhely bizonyos részét indexelés céljából, és ennek eredményeként az indexrendszerek feldolgozzák annak teljes másolatát. Ha ilyen hiba történt, a fődomainnek oldalanként 301-es átirányításon kell átesnie.
Engedély a teljes webhely feltérképezésére
User-agent: * Disallow:
Egy adott mappa feltérképezésének tiltása
User-agent: Googlebot Disallow: /no-index/
Az adott bot feltérképező oldalának tiltása
User-agent: Googlebot Disallow: /no-index/this-page.html
Egy bizonyos típusú fájlok feltérképezésének tiltása
User-agent: * Disallow: /*.pdf$
Engedély egy oldal feltérképezésére az adott bot számára
User-agent: * Disallow: /no-bots/block-all-bots-except-rogerbot-page.html User-agent: Yandex Allow: /no-bots/block-all-bots-except-Yandex-page.html
Weboldal hivatkozás az oldaltérképre
User-agent: * Disallow: Sitemap: http://www.example.com/none-standard-location/sitemap.xml
Általában azt tekintik problémának, ha a Robots.txt fájl nem tartalmaz XML-webhelytérkép-fájlra mutató hivatkozást .
Az irányelv alkalmazásakor figyelembe veendő sajátosságok, ha folyamatosan egyedi tartalommal tölti fel webhelyét:
- ne adjon hozzá hivatkozást webhelytérképére a robots szövegfájlban;
- válasszon valami nem szabványos nevet a sitemap.xml fájlnak (például my-new-sitemap.xml, majd adja hozzá ezt a hivatkozást a keresőrendszerekhez a webmesterek segítségével).
Disallow vagy Noindex
Ha nem szeretné, hogy egyes oldalak indexelésen menjenek keresztül, a noindex használata javasolt a metatag robotokban. A megvalósításhoz hozzá kell adnia a következő metacímkét az oldal szakaszához:
<meta name="robots" content="noindex, follow">
Ezzel a megközelítéssel a következőket fogja tenni:
- kerülje az egyes oldalak indexelését a webrobot következő látogatása során (akkor nem kell manuálisan törölnie az oldalt a webmesterek segítségével);
- sikerül közvetítenie az oldala linklevét.
A Robots.txt jobb az ilyen típusú oldalak bezárásához:
- webhelyének adminisztratív oldalai;
- adatok keresése a webhelyen;
- regisztráció/engedélyezés/jelszó visszaállítás oldalain.
Ezenkívül megtekintheti Darren Taylor, a SEM akadémia alapítója által készített robots.txt oktatóanyagot.
Hogyan segítheti a Robots.txt az Ön SEO stratégiáját?
Mindenekelőtt a költségvetés feltérképezéséről van szó. Minden webhely saját feltérképezési költségkerettel rendelkezik, amelyet a keresőmotorok személyesen becsülnek meg. A Robots.txt fájl megakadályozza, hogy webhelye feltérképezzen a keresőrobotok által szükségtelen oldalakat, például ismétlődő oldalakat, kéretlen oldalakat, és nem minőségi oldalakat. A fő probléma az, hogy a keresőmotorok indexe olyasmit kap, aminek nem kellene ott lennie – olyan oldalakat, amelyek nem hoznak semmi hasznot az embereknek, és csak szennyezik a keresést.
De hogyan árthat ez a SEO-nak? A válasz elég egyszerű. Amikor a keresőrobotok feltérképezés céljából eljutnak a webhelyre, nincsenek beprogramozva a legfontosabb oldalak felfedezésére. Gyakran átvizsgálják a teljes webhelyet az összes oldalával együtt. Így a legfontosabb oldalakat egyszerűen nem lehet beolvasni a korlátozott feltérképezési költségkeret miatt. Ezért a Google vagy bármely más keresőmotor elkezdi körbejárni az Ön webhelyét a kapott információk alapján. Így fennáll a veszélye annak, hogy SEO stratégiája megbukik a nem releváns oldalak miatt.
Konklúzió
A robots.txt fájl kritikus komponens a keresőmotorok webhelyek feltérképezésének és indexelésének kezelésében. Útmutatást ad a robotok kereséséhez, lehetővé téve számukra a fontos oldalak rangsorolását és a felesleges oldalak elkerülését, így optimalizálva a feltérképezési költségkeretet. A robots.txt helyes konfigurálása segít megakadályozni, hogy a keresőmotorok ismétlődő, adminisztratív vagy rossz minőségű oldalakat indexeljenek, így biztosítva, hogy csak a hasznos tartalom jelenjen meg a keresési eredmények között. A hibás konfiguráció azonban fontos oldalak figyelmen kívül hagyásához vezethet, ami negatívan befolyásolja a keresőoptimalizálást. Alapvető fontosságú, hogy a webmesterek bölcsen használják a robots.txt fájlt, egyensúlyba hozva bizonyos oldalak blokkolásának szükségességét, miközben biztosítják, hogy az értékes tartalom elérhető legyen az indexeléshez, ezáltal támogatva a hatékony keresőoptimalizálási stratégiát.