Semalt: Πώς να αποκλείσετε το Darodar Robots.txt

Το αρχείο Robots.txt είναι ένα τυπικό αρχείο κειμένου που περιέχει οδηγίες για το πώς τα προγράμματα ανίχνευσης ιστού ή τα bot πρέπει να ανιχνεύουν έναν ιστότοπο. Η εφαρμογή τους είναι εμφανής σε bots μηχανών αναζήτησης που είναι κοινά σε πολλές βελτιστοποιημένες ιστοσελίδες. Ως μέρος του Πρωτοκόλλου Εξαίρεσης Ρομπότ (REP), το αρχείο robots.txt αποτελεί ουσιαστική πτυχή της ευρετηρίασης του περιεχομένου του ιστότοπου, καθώς και της δυνατότητας ενός διακομιστή να ελέγχει ανάλογα τα αιτήματα των χρηστών.

Η Julia Vashneva, η Semalt Senior Customer Manager Manager, εξηγεί ότι η σύνδεση είναι μια πτυχή της βελτιστοποίησης μηχανών αναζήτησης (SEO), η οποία περιλαμβάνει την απόκτηση επισκεψιμότητας από άλλους τομείς εντός της θέσης σας. Για τους συνδέσμους "ακολουθήστε" για μεταφορά χυμού συνδέσμου, είναι απαραίτητο να συμπεριλάβετε ένα αρχείο robots.txt στον χώρο φιλοξενίας του ιστότοπού σας για να ενεργείτε ως εκπαιδευτής του τρόπου με τον οποίο ο διακομιστής αλληλεπιδρά με τον ιστότοπό σας. Από αυτό το αρχείο, οι οδηγίες παρέχονται επιτρέποντας ή απαγορεύοντας τη συμπεριφορά ορισμένων συγκεκριμένων χρηστών.

Η βασική μορφή ενός αρχείου robots.txt

Ένα αρχείο robots.txt περιέχει δύο βασικές γραμμές:

User-agent: [όνομα παράγοντα χρήστη]

Απαγόρευση: [να μην ανιχνευθεί η συμβολοσειρά URL]

Ένα πλήρες αρχείο robots.txt θα πρέπει να περιέχει αυτές τις δύο γραμμές. Ωστόσο, μερικά από αυτά μπορούν να περιέχουν πολλές γραμμές πράκτορες χρήστη και οδηγίες. Αυτές οι εντολές μπορεί να περιέχουν πτυχές όπως επιτρέπει, απαγορεύει ή καθυστερούν την ανίχνευση. Υπάρχει συνήθως μια αλλαγή γραμμής που διαχωρίζει κάθε σετ εντολών. Κάθε μια από τις οδηγίες επιτρέπει ή απαγόρευση διαχωρίζεται από αυτήν την αλλαγή γραμμής, ειδικά για το robots.txt με πολλές γραμμές.

Παραδείγματα

Για παράδειγμα, ένα αρχείο robots.txt ενδέχεται να περιέχει κωδικούς όπως:

Χρήστης-πράκτορας: darodar

Απαγόρευση: / plugin

Απαγόρευση: / API

Απαγόρευση: / _comments

Σε αυτήν την περίπτωση, πρόκειται για αρχείο αποκλεισμού robots.txt που περιορίζει την πρόσβαση του διαδικτυακού προγράμματος ανίχνευσης Darodar στον ιστότοπό σας. Στην παραπάνω σύνταξη, ο κώδικας αποκλείει πτυχές του ιστότοπου, όπως προσθήκες, API και την ενότητα σχολίων. Από αυτήν τη γνώση, είναι δυνατόν να επιτευχθούν πολλά οφέλη από την αποτελεσματική εκτέλεση ενός αρχείου κειμένου ρομπότ. Τα αρχεία Robots.txt μπορούν να εκτελέσουν πολλές λειτουργίες. Για παράδειγμα, μπορούν να είναι έτοιμοι να:

1. Επιτρέψτε όλο το περιεχόμενο του προγράμματος ανίχνευσης ιστού σε μια σελίδα ιστότοπου. Για παράδειγμα;

Αντιπρόσωπος χρήστη: *

Απαγορεύω:

Σε αυτήν την περίπτωση, μπορείτε να έχετε πρόσβαση σε όλο το περιεχόμενο του χρήστη από οποιοδήποτε πρόγραμμα ανίχνευσης ιστού που ζητείται να μεταβεί σε έναν ιστότοπο.

2. Αποκλεισμός συγκεκριμένου περιεχομένου ιστού από συγκεκριμένο φάκελο. Για παράδειγμα;

Αντιπρόσωπος χρήστη: Googlebot

Απαγόρευση: / example-subfolder /

Αυτή η σύνταξη που περιέχει το όνομα χρήστη-πράκτορα Googlebot ανήκει στην Google. Απαγορεύει στο bot να έχει πρόσβαση σε οποιαδήποτε ιστοσελίδα στη συμβολοσειρά www.ourexample.com/example-subfolder/.

3. Αποκλεισμός ενός συγκεκριμένου προγράμματος ανίχνευσης ιστού από μια συγκεκριμένη ιστοσελίδα. Για παράδειγμα;

Χρήστης-πράκτορας: Bingbot

Απαγόρευση: /example-subfolder/blocked-page.html

Το bot Bing-παράγοντα χρήστη ανήκει σε προγράμματα ανίχνευσης ιστού Bing. Αυτός ο τύπος αρχείου robots.txt περιορίζει το πρόγραμμα ανίχνευσης ιστού Bing από την πρόσβαση σε μια συγκεκριμένη σελίδα με τη συμβολοσειρά www.ourexample.com/example-subfolder/blocked-page.

Σημαντικές πληροφορίες

  • Δεν χρησιμοποιεί κάθε χρήστης το αρχείο robts.txt. Ορισμένοι χρήστες ενδέχεται να αποφασίσουν να το αγνοήσουν. Τα περισσότερα από αυτά τα προγράμματα ανίχνευσης ιστού περιλαμβάνουν Trojans και κακόβουλο λογισμικό.
  • Για να είναι ορατό ένα αρχείο Robots.txt, θα πρέπει να είναι διαθέσιμο στον κατάλογο ιστότοπων ανώτερου επιπέδου.
  • Οι χαρακτήρες "robots.txt" είναι πεζά. Ως αποτέλεσμα, δεν πρέπει να τα αλλάξετε με κανέναν τρόπο, συμπεριλαμβανομένης της χρήσης κεφαλαίων ορισμένων πτυχών.
  • Το "/robots.txt" είναι δημόσιος τομέας. Ο καθένας μπορεί να βρει αυτές τις πληροφορίες όταν προσθέτοντάς το στα περιεχόμενα οποιασδήποτε διεύθυνσης URL. Δεν πρέπει να ευρετηριάσετε βασικές λεπτομέρειες ή σελίδες που θέλετε να παραμείνουν ιδιωτικές.