มาทำความรู้จัก Robots.txt กันดีกว่า
91 | | . | ความรู้, HTML and CSS, WordPress, แก้โค้ด WordPress search engine optimization, seo, web, เว็บไซต์
วันนี้เรามารู้จักไฟล์ robots.txt กันหน่อยดีกว่านะครับ ไฟล์นี้จะทำหน้าที่ในการอนุญาต หรือไม่อนุญาตให้ บอทหรือโปรแกรมเก็บข้อมูลของ Search Engine เช่น Google, Yahoo เข้ามาเก็บข้อมูลในเว็บไซต์ของเรา โดยเราสามารถที่จะทำการระบุประเภทของบอทที่เราต้องการให้เข้ามาหรือไม่เข้ามา และสามารถระบุได้ว่า ไฟล์หรือหน้าไหนจะให้บอทเก็บออกไป
ยกตัวอย่างเช่น
User-agent: * Disallow: /
คำสั่งด้านบนนี้จะเป็นการไม่อนุญาติให้บอททุกประเภททำการเก็บข้อมูลในหน้าเว็บไซต์ของเราเลย
และถ้าเราต้องการให้อนุญาตทุกหน้าละจะทำอย่างไร ทำแบบนี้ครับ
User-agent: * Disallow:
และหากเราไม่ต้องการให้เก็บเพียงบางหน้าก็ใช้วิธีนี้ครับ
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/
บอทก็จะไม่ทำการเก็บในหน้า cgi-bin, tmp และ joe ครับ
หากเราไม่ต้องการให้บอทบางตัวมาเก็บเช่น Badbot มาเก็บข้อมูลในเว็บเราก็ใช้วิธีแบบนี้
User-agent: BadBot Disallow: /
และถ้าต้องการให้ Google เท่านั้นที่เก็บข้อมูล ส่วนบอทอื่นไม่ต้องการก็ให้เขียนแบบนี้ครับ
User-agent: Google Disallow: User-agent: * Disallow: /
สุดท้ายในกรณีที่เราไม่ต้องการอนุญาติให้เฉพาะบางไฟล์ก็ให้เขียนแบบด้านล่างนี้
User-agent: * Disallow: /~joe/junk.html Disallow: /~joe/foo.html Disallow: /~joe/bar.html
ที่มา About /robots.txt