Trang Nhất
|
Forums
|
Site Map
|
Góp Ý
|
Liên Hệ
Thứ Sáu, 05.12.2008, 02:14am (GMT+7)
 
Việt Nam sẽ sớm đưa IPv6 vào sử dụng ; Một “đại gia” về thông tin trở lại thị trường báo điện tử ; 10 công cụ biên tập ảnh online khi không có Photoshop ; Việt Nam đứng thứ 5 về tỷ lệ tăng PC ma ; Những công nghệ tiêu biểu nhất 2008
[Nâng Cao]
 
Tổng Hợp  
  Tin Tức CNTT
  Quảng Bá Website
  Quảng Cáo Trực Tuyến
  Làm Chủ Website
  Thương Mại Điện Tử
  Bảo Mật
  Database
  Hacker
  Lập Trình
  Đồ Họa
  Website Của Tôi
  Chơi Blog
  Download
  Ebook
  Forums
  Danh Bạ Web
   Tiêu Điểm
Mạng xã hội ảo muốn kết bạn với người ngoài hành tinh
10 sai lầm hay gặp ở các website Việt Nam
Siêu hạng về đánh lừa Alexa
Microsoft nhanh tay "đoạt" Facebook trước mặt Google
Đình chỉ hoạt động 1 trang web "chui"
Thấy gì ở những website của các cơ quan nhà nước
Mạng xã hội Facebook bị kiện ăn cắp ý tưởng
10 cách giúp website của bạn thường trực trong danh sách kết quả tìm kiếm của Search Engine (P1)
Nâng cao vị trí website của bạn trên Google
Top 100 website toàn cầu đậm dấu ấn người dùng WEB
Tạo URL thân thiện người dùng
Cùng tìm hiểu: Google Webmaster Tools
"Robots.txt" - file quan trọng để Site xuất hiện trên các công cụ tìm kiếm
10 quan niệm sai lầm về thương mại điện tử
'Theo dõi' người truy nhập để quản trị Website tốt hơn
 
Làm Chủ Website
 
"Robots.txt" - file quan trọng để Site xuất hiện trên các công cụ tìm kiếm
Thứ Sáu, 25.05.2007, 01:50pm (GMT+7)

Một trong những điều quan trọng để web site của bạn có thể đạt High ranking (thứ hạng cao) trong các cỗ máy tìm kiếm là bạn phải xây dựng cho mình một file Robots.txt

Vậy file Robots.txt là gì? khi một search engine tìm đến (nguyên văn Crawler) web site nào đó, nó sẽ tìm một file đặc biệt trước tiên, đó là file robots.txt. File robot.txt cho search engine đó biết rằng, web site này có thể index hoặc không (tùy theo lệnh được viết trong file robots.txt).


Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ:


Vậy, làm thế nào để tạo ra một file robots.txt? Rất đơn giản, bạn có thể mở chương trình Notepad hay bất cứ chương trình soạn thảo văn bản nào, lưu file với tên robots.txt là xong. Các dòng lệnh trong file này có cấu trúc như sau:

User-agent: googlebot
Disallow: /cgi-bin/

Trong đó User-agent: là đại diện của một search engine, Googlebot là spider của Google. Trong ví dụ này, chỉ các spider của Google là được phép index web site. Disallow: là không cho phép thực hiện điều gì đó. ở ví dụ trên là không cho phép các spider index thư mục "cgi-bin" trong web site.

Ví dụ thứ hai:

User-agent: googlebot
Disallow: /support

Tất cả các trang nằm trong thư mục support, hay support-desk sẽ không được index.

Nếu bạn muốn tất cả các search engine có thể index web site của bạn, nhưng không được index các trang trong thư mục "cgi-bin" thì sử dụng lệnh sau:

User-agent: *
Disallow: /cgi-bin/

Những điều nên tránh:
+ Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn. Ví dụ:

"Disallow: support # Don't index the support directory" might be misinterepreted as "Disallow: support#Don't index the support directory".

+ Không được để khoảng trắng ở đầu dòng lệnh, ví dụ:
User-agent: *
Disallow: /cgi-bin/

+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /support
User-agent: *

+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:

User-agent: *
Disallow: /support /cgi-bin/ /images/

các search engine không hiểu định dạng trên. bạn nên viết thế này:

User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

+Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng. Ví dụ, thư mục của bạn là "cgi-bin" (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là "Cgi-Bin" thì các spider sẽ "bó tay".

+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì trong web site của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác "nhòm ngó". nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong web site của bạn sẽ bị index!

Bạn có thể tham khảo tập tin robots.txt tại các web site nổi tiếng trên thế giới.
H.Nguyễn (Theo Semcomgroups)

    In trang        Gửi bạn bè        Đầu Trang


Các Tin Khác:
Tìm địa chỉ proxy cực nhanh bằng “Proxy Finder” (23.05.2007)
Hướng dẫn cho việc chọn nhà cung cấp Web Hosting (23.05.2007)
Tên miền mới sẽ ra mắt vào giữa năm 2008 (22.05.2007)
Thận trọng khi sử dụng máy tính công cộng (20.05.2007)
14 thủ thuật tăng tốc độ website (20.05.2007)
Loại bỏ những mẩu quảng cáo của Google (20.05.2007)
Tên miền porn.com giá 9,5 triệu USD (15.05.2007)
Tên miền .bank sẽ giúp giao dịch an toàn (12.05.2007)
Sử dụng Google để học tiếng anh (18.04.2007)
10 quan niệm sai lầm về thương mại điện tử (12.04.2007)
"Mẹo" đo tốc độ đường truyền ADSL (26.03.2007)
Định nghĩa: SEO là gì? (18.03.2007)
'Theo dõi' người truy nhập để quản trị Website tốt hơn (04.03.2007)
'Giải mã' Web 2.0 trước thềm năm mới (17.02.2007)
Lợi thế của tên miền quốc gia .VN (23.10.2006)
 
  Đẹp + Tech



[Lên Đầu Trang]