Cách tạo và đọc tệp robots.txt cho Blog
Tệp robots.txt được tạo ra nhằm thêm nội dung các quy tắc chặn các công cụ tìm kiếm thu thập và lập chỉ mục các liên kết URLs của trang web, nếu bạn không thêm tệp robots.txt mặc định sẽ cho phép các công cụ tìm kiếm thu thập. Các công cụ tìm kiếm như: Google, Bing, Yahoo, Twitter, Facebook...., sử dụng các thuật toán gọi là bot thu thập truy cập liên kết chính của mỗi trang phân tích thu thập tất cả các liên kết URLs đang có trong trang đó sau đó tìm kiếm tệp robots.txt, thẻ meta, thuộc tính rel trong liên kết để xem liên kết nào bị chặn, liên kết nào được phép truy cập. Tệp robots.txt vẫn được các công cụ tìm kiếm ưu tiên khi phân tích, khi đọc nội dung trong tệp các bot thu thập biết được các liên kết nào được phép thu thập và lập chỉ mục và các liên kết nào đang bị chặn. Mỗi trình thu thập đều có một tên riêng được chỉ định rõ ràng trong nội dung tệp robots.txt như ví dụ sau: Google - Googlebot, Bing - Bingbot, Yahoo - Yahoobot, Twitter - Twitterbot, Facebook - Facebot..., ngoài ra b…