มาทำความรู้จัก Robots.txt กันดีกว่า

วันนี้เรามารู้จักไฟล์ robots.txt กันหน่อยดีกว่านะครับ ไฟล์นี้จะทำหน้าที่ในการอนุญาต หรือไม่อนุญาตให้ บอทหรือโปรแกรมเก็บข้อมูลของ Search Engine เช่น Google, Yahoo เข้ามาเก็บข้อมูลในเว็บไซต์ของเรา โดยเราสามารถที่จะทำการระบุประเภทของบอทที่เราต้องการให้เข้ามาหรือไม่เข้ามา และสามารถระบุได้ว่า ไฟล์หรือหน้าไหนจะให้บอทเก็บออกไป

ยกตัวอย่างเช่น

User-agent: *
Disallow: /

คำสั่งด้านบนนี้จะเป็นการไม่อนุญาติให้บอททุกประเภททำการเก็บข้อมูลในหน้าเว็บไซต์ของเราเลย
และถ้าเราต้องการให้อนุญาตทุกหน้าละจะทำอย่างไร ทำแบบนี้ครับ

User-agent: *
Disallow:

และหากเราไม่ต้องการให้เก็บเพียงบางหน้าก็ใช้วิธีนี้ครับ

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

บอทก็จะไม่ทำการเก็บในหน้า cgi-bin, tmp และ joe ครับ

หากเราไม่ต้องการให้บอทบางตัวมาเก็บเช่น Badbot มาเก็บข้อมูลในเว็บเราก็ใช้วิธีแบบนี้

User-agent: BadBot
Disallow: /

และถ้าต้องการให้ Google เท่านั้นที่เก็บข้อมูล ส่วนบอทอื่นไม่ต้องการก็ให้เขียนแบบนี้ครับ

User-agent: Google
Disallow:

User-agent: *
Disallow: /

สุดท้ายในกรณีที่เราไม่ต้องการอนุญาติให้เฉพาะบางไฟล์ก็ให้เขียนแบบด้านล่างนี้

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

ที่มา About /robots.txt