Wat is Robot.txt? (https://ranktracker-blog.s3.amazonaws.com/2016/Apr/what_is_robot_txt-1461592898726.jpg)
Intro
Robots Exclusion Protocol (REP) is een Webmaster-bestand dat wordt gebruikt om robots instructies te geven. De instructies helpen de robots bij het crawlen van webpagina's en het indexeren ervan voor verschillende websites. Dit REP wordt ook wel Robots.txt genoemd. Ze worden in het bovenste niveau van de webserver directory geplaatst om het meest bruikbaar te zijn. Bijvoorbeeld: https://www.123abc.com/robots.txt
REP groepen worden gebruikt als een web standaard die bot acties en zoekmachine indexering gedrag regelt. Tussen 1994 en 1997 definieerde de oorspronkelijke REP bot gedrag voor robots.txt. In 1996 ondersteunden zoekmachines aanvullende REP X-robot tags. Zoekmachines behandelden links waarvan de waarde een "follow" bevatte met een microformat rel-no follow.
Robot spiekbriefje
Om web crawlers volledig te blokkeren
User-agent: *
Disallow: /
Om specifieke web crawlers van een doelmap te blokkeren
User-agent: Googlebot
Disallow: /no-google/
Om specifieke web crawlers van een doel web pagina te blokkeren
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
User-agent: *
Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Uitsluiting Specifieke Robot Protocol Tags
URI, REP tags worden toegepast op bepaalde indexer taak, en in sommige gevallen nosnippet, noarchive en noodpquery motoren of een zoekopdracht. Bronnen met uitsluitingstags, zoekmachines zoals Bing SERP listings tonen deze externe links als verboden URL's. Naast crawler directives zullen specifieke zoekmachines REP tags verschillend interpreteren. Een voorbeeld hiervan is hoe Bing soms externe verwijzingen op hun SERP's als verboden weergeeft. Google neemt dezelfde lijsten en veegt de URL en ODP verwijzingen op hun SERPs weg. De gedachte is dat X-Robots richtlijnen zouden overrulen die in strijd zijn met META elementen.
Microformats
Bepaalde HTML-factoren zullen pagina-instellingen overrulen in micro-geformatteerde index directives. Deze manier van programmeren vereist vaardigheden en een zeer goed begrip van webservers en het HTTP-protocol. Een voorbeeld van dit protocol zou een pagina van X-Robot tags met een bepaald element link die zeggen follow dan rel-nofollow. Robots.txt indexers hebben meestal geen directives, maar het is mogelijk om groep indexers in te stellen van URI's die een server hebben met zijdelingse scripts op het niveau van de site.
Pattern Matching
Webmasters kunnen nog steeds twee afzonderlijke uitdrukkingen gebruiken om uitsluiting van pagina's aan te duiden. De twee tekens zijn de asterisk en het dollarteken. De asterisk geeft aan dat elke combinatie van tekens kan vertegenwoordigen. Het dollarteken is om het einde van de URL aan te geven.
Onbeperkte informatie
Robotbestanden zijn altijd openbaar, dus het is belangrijk om te weten dat iedereen een robotbestand kan bekijken dat aan een webpagina is gekoppeld. Het is ook toegankelijke informatie waar de Webmaster de engines van blokkeert op de server. Deze openbare bestanden laten toegang toe tot privé-gegevens van gebruikers die privé-gegevens van individuen kunnen bevatten. Het is mogelijk om wachtwoordbeveiliging toe te voegen om te voorkomen dat bezoekers en anderen geheime pagina's bekijken die niet geïndexeerd mogen worden.
Aanvullende Regels
- Eenvoudige meta robot parameters zoals index en follow command zouden alleen gebruikt moeten worden om te voorkomen dat pagina's geïndexeerd en gecrawld worden.
- Gevaarlijke bots zullen deze commando's zeer zeker negeren en zijn als zodanig een nutteloos veiligheidsplan.
- Elke URL mag maar één "disallow" regel hebben.
- Aparte robots bestanden zijn nodig op elk subdomein
- Filenamen voor de bots zijn hoofdlettergevoelig
- Spaties scheiden de zoek parameters niet
Top SEO Tactiek: Robot.txt
Blokkeren van pagina's - er zijn verschillende manieren om te voorkomen dat een zoekmachine een webpagina of domein indexeert en benadert.
Robots gebruiken om pagina's te blokkeren
Deze uitsluiting vertelt de zoekmachine om de pagina niet te crawlen, maar het kan nog steeds de pagina indexeren om het in SERP lijsten te tonen.
Geen Index Pagina Blokkering
Deze methode van uitsluiting vertelt zoekmachines dat ze de pagina wel mogen bezoeken, maar dat ze de URL niet mogen tonen of de pagina voor hun index mogen opslaan. Dit is de voorkeursmethode van uitsluiting.
Geen volgende link om pagina's te blokkeren
Dit is geen ondersteunde tactiek. Zoekmachines kunnen met deze opdracht nog steeds pagina's benaderen. Zelfs als de zoekmachine de pagina niet direct kan volgen, kan het de inhoud benaderen via de browser analytics of andere gelinkte pagina's.
Meta Robots vs. Robots.txt
Een voorbeeld van een robots.txt bestand van een website kan helpen het proces van het programma te verduidelijken. In het voorbeeld blokkeert het robotbestand de directory. Wanneer de betreffende URL wordt opgezocht in Google, blijkt dat 2760 pagina's uit de directory zijn geweerd. In het voorbeeld heeft de engine de URL's niet gecrawld, dus ze zullen niet verschijnen als traditionele vermeldingen. Deze pagina's zullen link juice vergaren zodra er links aan gekoppeld zijn. In aanvulling op hun ranking kracht, zullen ze ook beginnen aan populariteit en vertrouwen te winnen door te verschijnen in zoekopdrachten. Aangezien de pagina's geen voordeel voor de site kunnen zijn omdat ze niet worden gecrawled. De beste manier om dit probleem op te lossen en geen verspilde ranking kracht op een pagina te hebben, is het verstandig om een andere methode van uitsluiting te gebruiken om de individuele pagina's te verwijderen. De codering zou verschijnen als: meta tag deze methode zou betere prestaties vertonen dan de vorige methode.