|
TÚI CÀN KHÔN IT |
|
ROBOTS/SPIDERS, có
thể bạn chưa biết...
SMARTOR (HÀ NỘI) |
|
Đây là bài viết của tôi dành cho các chíp webmaster
(quản trị web). Nếu bạn đã thực sự “3xp3ri3nc3d” hay
“professional” (dân chuyên nghip) thì đọc để giết...
hai phút cũng được. |
|
Robots/Spiders là gì? |
|
Khái niệm “robot” và “spider” trong bài này là chỉ
các cỗ máy (phần cứng/phần mềm) có nhiệm vụ chuyên
đi sục sạo khắp nơi trên internet để truy tìm thông
tin và đánh chỉ mục các website cho các Search
Engine (máy tìm kiếm, ví dụ: google.com). Hẳn là các
bạn muốn website của mình cũng được các
robots/spiders mò tới và được xếp hạng cao trong các
trang tìm kiếm chứ? |
|
Robots/Spiders hoạt động như
thế nào? |
|
Bài viết này dưới dạng “webmasters tips” nên chúng ta
không cần quan tâm lắm vào mục này. Chỉ cần biết đại
khái là từ một trang ban đầu, các robot sẽ lần tới các
trang tiếp theo qua các liên kết trên trang đó... Và ta
cũng có thể gửi địa chỉ website của ta lên các trang tìm
kiếm qua các biểu mẫu đăng ký (tuỳ trang) - đừng làm
việc này cho đến khi website của bạn đã có một lượng
thông tin đáng kể). Nếu các bạn muốn biết rõ hơn, các
bạn hãy xem qua các website tham khảo kèm theo. |
|
Hiệu quả! |
|
Dĩ nhiên, khi website đã được đưa lên các trang tìm
kiếm thì website của bạn sẽ có nhiều khách hơn. Nếu
lấy số liệu thống kê từ một website của tôi làm ví
dụ thì số khách đến từ các trang tìm kiếm chiếm
khoảng 10% tổng các lượt ghé thăm (còn lại là liên
kết từ website khác 30% và trực tiếp 60%), con số
này sẽ rất khác nhau đối với các website khác nhau.
Đây là một con số rất đáng kể bởi từ 10% này sẽ có
nhiều người còn quay trở lại. |
|
Chúng càn quét website của bạn
như thế nào? |
|
Mỗi robots/spiders của các hãng khác nhau thì có công
nghệ, phương pháp “mò mẫm” khác nhau. Như thế nào thì
tôi cũng chả rõ, nhưng ít nhất thì bạn đã bao giờ thử
theo dõi chúng “càn quét” như thế nào chưa? Rất đơn
giản, nếu bạn có một chút kiến thức về HTTP. Nếu bạn đã
làm rồi, hẳn các bạn phải công nhận dù sao chúng cũng là
những... cái máy. Tôi đã nhiều lần chứng kiến một
robots/spiders (quên mất tên) suốt hai giờ liền chỉ vào
đi vào lại trang “Đăng nhập” - dĩ nhiên nó mãi mãi không
bao giờ đăng nhập được. |
|
Tiêu tốn băng thông! |
|
Đối webserver của bạn thì các robots/spiders cũng
giống như các khách truy cập bình thường, và dĩ
nhiên chúng cũng tiêu tốn băng thông. Bạn đã bao giờ
thử thống kê con số này chưa? Đối với các website
của tôi thì mỗi tháng, các robots/spiders ngốn hết
bốn năm trăm MB băng thông là chuyện bình thường
(xin đừng nghi ngờ độ chính xác của con số này!),
trong đó Googlebot chiếm 95%. |
|
400MB chỉ là cái... móng tay nếu webhost của bạn vào
loại “ngon lành” và bạn thực sự đầu tư cho website;
thế nhưng nó lại là nỗi kinh hoàng cho những chíp
webmaster chỉ có thể xài host miễn phí hay cùng lắm
là host giá rẻ. Lấy ngay như tôi đây, đang có một
website cho một nhóm bạn chạy trên host miễn phí
giới hạn 300MB băng thông mỗi tháng. Chúng tôi cả lũ
dùng tích cực song chỉ đến được 10MB, vậy mà các
robots/spiders đã ngốn hơn 100MB (hãi chưa?!) |
|
Cách giải quyết? |
|
May sao, các robots/spiders đều có những quy ước,
quy tắc trong hoạt động, nhờ đó chúng ta có thể giải
quyết những vấn đề trên. Một trong các cách đó là sử
dụng robots.txt: Đặt file này vào thư mục gốc của
website. Các robots/spiders theo quy ước sẽ đọc file
này để lấy chỉ thị (của bạn) trước khi sục sạo các
trang. Định dạng của robots.txt như sau: |
|
User-agent:
Disallow:
"User-agent" chứa tên của một loại robot/spider mà
chỉ dẫn "Disallow" tiếp sau có tác dụng tới, ví dụ:
Googlebot, cybermapper, slurp@inktomi.com.
"Disallow" chứa URL gián tiếp của phần website mà
bạn không muốn các robots/spiders rờ tới. Sau mỗi
"User-agent", bạn có thể dùng nhiều "Disallow". |
|
Ví dụ:
# cấm mọi robots/spiders
User-agent: *
Disallow:
# không cho download - tuỳ biến cho website của bạn
User-agent: *
Disallow:/download/
Disallow:/download.php
Disallow: *.zip |
|
Lời kết |
|
Bạn có tin tưởng và làm theo hay không là tuỳ ở bạn.
Tôi không chịu bất cứ trách nhiệm gì về tính chính
xác, cập nhật của thông tin cũng như bất cứ chuyện
gì xảy ra đối với website của bạn. |
|
Tham khảo:
http://www.google.com/about.html
http://www.robotstxt.org |
|
|