Intro
Robots Exclusion Protocol (REP) er en webmasterfil, der bruges til at give robotter instrukser. Instruktionerne hjælper robotterne med at gennemsøge websider og indeksere dem for forskellige websteder. Denne REP kaldes nogle gange for Robots.txt. De placeres på det øverste niveau i webserverens mappe for at være mest nyttige. For eksempel: https://www.123abc.com/robots.txt
REP-grupper bruges som en webstandard, der regulerer bothandlinger og søgemaskiners indekseringsadfærd. Mellem 1994 og 1997 definerede den oprindelige REP bot-adfærd for robots.txt. I 1996 understøttede søgemaskinerne yderligere REP X-robot-tags. Søgemaskiner håndterede links, hvor værdien indeholdt et "follow" ved hjælp af et mikroformat rel-no follow.
Robot snydeark
Sådan blokerer du webcrawlere fuldstændigt
Bruger-agent: * Disallow: /
Sådan blokerer du specifikke webcrawlere fra en målmappe
Bruger-agent: Googlebot Disallow: /no-google/
Sådan blokerer du specifikke webcrawlere fra en målwebside
Bruger-agent: Googlebot Disallow: User-agent: Googlebot: /no-google/blocked-page.html * Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Udelukkelse Specifik robotprotokol Tags
URI, REP-tags anvendes på visse indekseringsopgaver og i nogle tilfælde nosnippet-, noarchive- og noodpquery-motorer eller en søgeforespørgsel. Ressourcer, der er mærket med udelukkelsestags, viser søgemaskiner som Bing SERP-listerne disse eksterne links som forbudte URL'er. Ud over crawler-direktiver vil specifikke søgemaskiner fortolke REP-tags forskelligt. Et eksempel på dette kan ses ved, at Bing nogle gange vil opføre eksterne henvisninger på deres SERP'er som forbudte. Google tager de samme lister og sletter URL- og ODP-referencerne på deres SERP'er. Tanken er, at X-Robots ville tilsidesætte direktiver, der er i konflikt med META-elementer.
Mikroformater
Særlige HTML-faktorer vil tilsidesætte sideindstillingerne i mikroformaterede indeksdirektiver. Denne programmeringsmetode kræver færdigheder og en meget god forståelse af webservere og HTTP-protokollen. Et eksempel på denne protokol ville være en side med X-Robot-tags med et bestemt elementlink, hvor der står follow og derefter rel-nofollow. Robots.txt-indeksere mangler normalt direktiver, men det er muligt at indstille gruppeindeksere af URI'er, der har en server med sideskripter på webstedsniveau.
Mønstermatchning
Webmastere kan stadig bruge to separate udtryk til at angive udelukkelse af sider. De to tegn er stjernetegnet og dollartegnet. Asterisken angiver, at den kan repræsentere en hvilken som helst kombination af tegn. Dollartegnet angiver slutningen af URL'en.
Ubegrænset information
Robotfiler er altid offentlige, så det er vigtigt at være opmærksom på, at alle kan se en robotfil, der er knyttet til en webside. Det er også tilgængelig information, hvor webmasteren blokerer motorerne fra på serveren. Disse offentlige filer efterlader adgang til private brugerdata, der kan omfatte private individuelle data. Det er muligt at tilføje passwordbeskyttelse for at forhindre besøgende og andre i at se klassificerede sider, der ikke bør indekseres.
Yderligere regler
- Simple meta-robotparametre som index og follow-kommandoen bør kun bruges til at forhindre indeksering og crawling af sider.
- Farlige robotter vil helt sikkert ignorere disse kommandoer og er derfor en ubrugelig sikkerhedsplan.
- Hver URL har kun lov til at have én "disallow"-linje.
- Der kræves separate robotfiler på hvert underdomæne
- Filnavne til robotterne er stregfølsomme over for store og små bogstaver
- Mellemrum adskiller ikke søgeparametre
Top SEO-taktikker: Robot.txt
Blokering af sider - der er flere måder at forhindre en søgemaskine i at indeksere og få adgang til en webside eller et domæne på.
Brug af robotter til at blokere sider
Denne udelukkelse fortæller søgemaskinen, at den ikke skal gennemsøge siden, men den kan stadig indeksere siden og vise den i SERP-listerne.
Ingen blokering af indekssiden
Denne udelukkelsesmetode fortæller søgemaskinerne, at de har lov til at besøge siden, men at de ikke kan få lov til at vise URL'en eller gemme siden i deres indeks. Dette er den foretrukne udelukkelsesmetode.
Ingen følgende link til blokering af sider
Dette er ikke en støttet taktik. Søgemaskiner kan stadig få adgang til sider med denne kommando. Selv om søgemaskinen ikke kan følge siden direkte, kan den få adgang til indholdet ved hjælp af browseranalysen eller andre linkede sider.
Meta Robots vs. Robots.txt
Et eksempel på en robots.txt-fil på et websted kan være med til at tydeliggøre programmets proces. I eksemplet blokerer robotfilen for mappen. Når der søges på den pågældende URL-adresse i Google, viser det, at 2760 sider er blevet forbudt fra mappen. I eksemplet har motoren ikke crawlet URL'erne, så de vises ikke som traditionelle lister. Disse sider vil akkumulere linkjuice, når de har fået knyttet links til dem. Ud over deres rangeringskraft vil de også begynde at få popularitet og tillid ved at blive vist i søgninger. Da siderne ikke kan være en fordel for webstedet, fordi de ikke bliver crawlet. Den bedste måde at løse dette problem på og ikke have spildt rankingkraft på en side, er det klogt at bruge en anden udelukkelsesmetode til at fjerne de enkelte sider. Kodningen ville fremstå som: meta tag denne metode ville udvise bedre ydeevne end den tidligere metode.