פרוטוקול
robots.txt הוא פרוטוקול המאפשר לבעל אתר אינטרנט להגדיר חלקים שונים באתר אותם מנועי החיפוש לא יסרקו/יאנדקסו בעת ביקור באתר.
בעת סריקה של מנוע חיפוש באתר מסויים, הדבר הראשון אותו הוא מחפש זה את הקובץ robots.txt.
הקובץ בנוי מהגדרות שונות אותם מגדיר בעל האתר, הגדרות אלו נמצאות בקובץ הנמצא בתיקיית ה (root) של האתר והינו מכיל תחביר ייחודי לקובץ זה.
הפורמט של קובץ זה בנוי כך:
שורת "
User-Agent" ושורת "
Disallow"
בשורת ה- "User-Agent" נקבע מול איזה רובוט אנו רוצים לייחס את החסימה
בשורת ה - "Disallow" נאפשר למנוע חסימה של תיקייות / קבצים
לדוגמא:
על מנת לחסום את Google:
User-agent: GoogleBot
Disallow: /
על מנת למנוע מכל הבוטים לאנדקס / לסרוק את האתר:
User-agent: *
Disallow: /
מניעת אינדוקס / סריקה של תיקיית images
User-agent: *
Disallow: /images/
לכניסה לאתר הראשי של robots.txt
לחץ כאן