เป็นที่ทราบกันดีว่าถ้าคุณนำข้อมูลใส่เข้าไปบนอินเทอร์เน็ตนั่นก็หมายความว่าคุณยอมรับ
ที่จะเผยแพร่ข้อมูลนั้นต่อสาธารณ เพียงแค่ใช้ ชื่อหรืออีเมล ของบุคคลที่คุณต้องการสืบค้น
เสิร์ชด้วยกูเกิลคุณก็จะพบกับข้อมูลมากมาย

วิธีที่จะช่วยให้เว็บไซท์ หรือ บางเพจของเว็บไม่ให้ถูกค้นเจอด้วย search engine

1.ใส่ robots meta tag ในเพจที่ไม่ต้องการให้ search engine เก็บข้อมูลไปทำ index

  1. <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

ค่า NAME ที่สามารถใส่เข้าไปได้

  • ROBOTS หมายถึง robots ของทุกตัว
  • GOOGLEBOT หมายถึง การเจาะจงให้มีผลเฉพาะ robot ของ google

ค่า CONTENT ที่สามารถใส่เข้าไปได้

  • NOINDEX หมายถึง ไม่ให้ทำ index เพจนี้
  • NOFOLLOW หมายถึง ห้ามตาม link ที่ปรากฏในเพจนี้
  • NOARCHIVE หมายถึง ห้าม cache เพจนี้

 

2.สร้างไฟล์ robots.txt ไว้ที่ root / top level ไดเรคทอรี่

เมื่อ robots เข้ามาเยี่ยมเว็บไซท์เรา มันจะมองมาไฟล์ robots.txt ก่อน
เช่น url เว็บไซท์ http://www.example.com/ robot ก็จะเข้าไปที่
http://www.example.com/robots.txt เป็นอันดับแรก
ถ้าเราใส่โคดข้างล่างนี้เข้าไปในไฟล์ robots.txt

  1. User-agent: *
  2. Disallow: /

robots มันก็จะออกไปจากเว็บไซท์เราทันที

User-agent: *”  หมายความว่า ให้มีผลกับ robots ทุกตัว
Disallow: /” คือ การบอกให้ robots ไม่ต้องเข้ามายุ่มย่ามเว็บไซท์นี้

วิธีนี้ก็สามารถระบุตัว robot ได้เช่นเดียวกับวิธีแรกโดยใส่ค่า User-agent ดังนี้

“User-agent: Google”

มาดูกันอีกตัวอย่างนึง

  1. User-agent: *
  2. Disallow: /cgi-bin/
  3. Disallow: /tmp/
  4. Disallow: /junk/foo.html

“Disallow: /cgi-bin/ ” หมายความว่า ห้าม robots ตัวใด ๆ เข้าไปโฟลเดอร์ cgi-bin
“Disallow: /junk/foo.html” หมายความว่า ห้าม robots ตัวใด ๆ เข้าไปยุ่งกะไฟล์
foo.html ที่อยู่ในโฟลเดอร์ junk

ตัวอย่างเว็บที่ใช้ robots.txt

Reference: