Τι είναι το Robots.txt;
Ένα αρχείο robots.txt περιορίζει τους ανιχνευτές ιστού, όπως τα bots των μηχανών αναζήτησης, από την πρόσβαση σε συγκεκριμένες διευθύνσεις URL σε έναν ιστότοπο. Μπορεί επίσης να χρησιμοποιηθεί για την προσαρμογή της ταχύτητας ανίχνευσης για ορισμένα προγράμματα ανίχνευσης ιστού.
Όλοι οι "καλοί" ανιχνευτές ιστού τηρούν τους κανόνες που καθορίζονται στο αρχείο robots.txt. Ωστόσο, υπάρχουν "κακοί" μη εγγεγραμμένοι ανιχνευτές, οι οποίοι συχνά χρησιμοποιούνται για σκοπούς απόξεσης, που αγνοούν εντελώς το αρχείο robots.txt.
Το αρχείο robots.txt πρέπει να χρησιμοποιείται για τη μείωση/βελτιστοποίηση της επισκεψιμότητας των ανιχνευτών σε έναν ιστότοπο και δεν πρέπει να χρησιμοποιείται για τον έλεγχο της ευρετηρίασης των ιστοσελίδων. Ακόμα και αν μια διεύθυνση URL δεν επιτρέπεται στο αρχείο robots.txt, μπορεί να αναπροσαρμοστεί από τη Google αν ανακαλυφθεί μέσω ενός εξωτερικού συνδέσμου.
Σύνταξη του Robots.txt
Η σύνταξη του αρχείου robots.txt περιέχει τα ακόλουθα πεδία:
- user-agent: ο crawler στον οποίο εφαρμόζονται οι κανόνες
- disallow: μια διαδρομή που δεν πρέπει να ανιχνευθεί
- allow: μια διαδρομή που μπορεί να ανιχνευθεί (προαιρετικά)
- sitemap: τοποθεσία του αρχείου sitemap (προαιρετικό)
- crawl-delay: ελέγχει την ταχύτητα ανίχνευσης (προαιρετικό και δεν υποστηρίζεται από το GoogleBot)
Ακολουθεί ένα παράδειγμα:
Πράκτορας χρήστη: RanktrackerSiteAudit Disallow: /resources/ Allow: Crawl-delay: 2 Sitemap: https://example.com/sitemap.xml
Αυτό το αρχείο robots.txt δίνει εντολή στο πρόγραμμα ανίχνευσης RanktrackerSiteAudit να μην ανιχνεύει τις διευθύνσεις URL στον κατάλογο "/resources/" εκτός από αυτές στον κατάλογο "/resources/images/" και ορίζει την καθυστέρηση μεταξύ των αιτήσεων σε 2 δευτερόλεπτα.
Γιατί είναι σημαντικό το αρχείο Robots.txt;
Το αρχείο robots.txt είναι σημαντικό, διότι επιτρέπει στους διαχειριστές ιστοσελίδων να ελέγχουν τη συμπεριφορά των ανιχνευτών στις ιστοσελίδες τους, βελτιστοποιώντας τον προϋπολογισμό της ανίχνευσης και περιορίζοντας την ανίχνευση τμημάτων της ιστοσελίδας που δεν προορίζονται για δημόσια πρόσβαση.
Πολλοί ιδιοκτήτες ιστοτόπων επιλέγουν να μη δεικτοδοτούν ορισμένες σελίδες, όπως οι σελίδες συγγραφέα, οι σελίδες σύνδεσης ή οι σελίδες ενός ιστότοπου μελών. Μπορούν επίσης να μπλοκάρουν την ανίχνευση και την ευρετηρίαση πόρων με φραγμούς, όπως PDF ή βίντεο που απαιτούν ένα email opt-in για πρόσβαση.
Αξίζει να σημειωθεί ότι αν χρησιμοποιείτε ένα CMS όπως το WordPress, η σελίδα σύνδεσης /wp-admin/
αποκλείεται αυτόματα από την ευρετηρίαση από τους ανιχνευτές.
Ωστόσο, είναι σημαντικό να σημειωθεί ότι η Google δεν συνιστά να βασίζεστε αποκλειστικά στο αρχείο robots.txt για τον έλεγχο της ευρετηρίασης των σελίδων. Και αν κάνετε αλλαγές σε μια σελίδα, όπως η προσθήκη μιας ετικέτας "noindex", βεβαιωθείτε ότι η σελίδα δεν έχει απαγορευτεί στο αρχείο robots.txt. Διαφορετικά, το Googlebot δεν θα είναι σε θέση να τη διαβάσει και να ενημερώσει εγκαίρως το ευρετήριό του.
Συχνές ερωτήσεις
Τι συμβαίνει αν δεν έχω αρχείο robots.txt;
Οι περισσότεροι ιστότοποι δεν απαιτούν απολύτως ένα αρχείο robots.txt. Ο σκοπός ενός αρχείου robots.txt είναι να κοινοποιεί συγκεκριμένες οδηγίες στα ρομπότ αναζήτησης, αλλά αυτό μπορεί να μην είναι απαραίτητο εάν έχετε έναν μικρότερο ιστότοπο ή έναν ιστότοπο χωρίς πολλές σελίδες που πρέπει να αποκλείσετε από τους ανιχνευτές αναζήτησης.
Με αυτό το δεδομένο, δεν υπάρχει επίσης κανένα μειονέκτημα στη δημιουργία ενός αρχείου robots.txt και τη λειτουργία του στον ιστότοπό σας. Αυτό θα σας διευκολύνει να προσθέσετε οδηγίες αν χρειαστεί να το κάνετε στο μέλλον.
Μπορώ να αποκρύψω μια σελίδα από τις μηχανές αναζήτησης χρησιμοποιώντας το robots.txt;
Ναι. Η απόκρυψη των σελίδων από τις μηχανές αναζήτησης είναι μία από τις κύριες λειτουργίες ενός αρχείου robots.txt. Μπορείτε να το κάνετε αυτό με την παράμετρο disallow και τη διεύθυνση URL που θέλετε να αποκλείσετε.
Ωστόσο, είναι σημαντικό να σημειωθεί ότι η απλή απόκρυψη μιας διεύθυνσης URL από το Googlebot χρησιμοποιώντας το αρχείο robots.txt δε ν εγγυάται ότι δεν θα αναπροσαρμοστεί. Σε ορισμένες περιπτώσεις, μια διεύθυνση URL μπορεί να εξακολουθεί να ευρετηριάζεται με βάση παράγοντες όπως το κείμενο της ίδιας της διεύθυνσης URL, το κείμενο άγκυρας που χρησιμοποιείται σε εξωτερικούς συνδέσμους και το πλαίσιο της εξωτερικής σελίδας όπου ανακαλύφθηκε η διεύθυνση URL.
Πώς να ελέγξω το αρχείο robots.txt;
Μπορείτε να επικυρώσετε το αρχείο robots.txt και να ελέγξετε πώς λειτουργούν οι οδηγίες σε συγκεκριμένες διευθύνσεις URL χρησιμοποιώντας τον ελεγκτή robots.txt στην κονσόλα αναζήτησης Google ή χρησιμοποιώντας εξωτερικούς επικυρωτές, όπως αυτόν της Merkle.