Số 10
TÚI CÀN KHÔN IT

ROBOTS/SPIDERS, có thể bạn chưa biết...
SMARTOR (HÀ NỘI)

Đây là bài viết của tôi dành cho các chíp webmaster (quản trị web). Nếu bạn đã thực sự “3xp3ri3nc3d” hay “professional” (dân chuyên nghip) thì đọc để giết... hai phút cũng được.

Robots/Spiders là gì?

Khái niệm “robot” và “spider” trong bài này là chỉ các cỗ máy (phần cứng/phần mềm) có nhiệm vụ chuyên đi sục sạo khắp nơi trên internet để truy tìm thông tin và đánh chỉ mục các website cho các Search Engine (máy tìm kiếm, ví dụ: google.com). Hẳn là các bạn muốn website của mình cũng được các robots/spiders mò tới và được xếp hạng cao trong các trang tìm kiếm chứ?

Robots/Spiders hoạt động như thế nào?

Bài viết này dưới dạng “webmasters tips” nên chúng ta không cần quan tâm lắm vào mục này. Chỉ cần biết đại khái là từ một trang ban đầu, các robot sẽ lần tới các trang tiếp theo qua các liên kết trên trang đó... Và ta cũng có thể gửi địa chỉ website của ta lên các trang tìm kiếm qua các biểu mẫu đăng ký (tuỳ trang) - đừng làm việc này cho đến khi website của bạn đã có một lượng thông tin đáng kể). Nếu các bạn muốn biết rõ hơn, các bạn hãy xem qua các website tham khảo kèm theo.

Hiệu quả!

Dĩ nhiên, khi website đã được đưa lên các trang tìm kiếm thì website của bạn sẽ có nhiều khách hơn. Nếu lấy số liệu thống kê từ một website của tôi làm ví dụ thì số khách đến từ các trang tìm kiếm chiếm khoảng 10% tổng các lượt ghé thăm (còn lại là liên kết từ website khác 30% và trực tiếp 60%), con số này sẽ rất khác nhau đối với các website khác nhau. Đây là một con số rất đáng kể bởi từ 10% này sẽ có nhiều người còn quay trở lại.

Chúng càn quét website của bạn như thế nào?

Mỗi robots/spiders của các hãng khác nhau thì có công nghệ, phương pháp “mò mẫm” khác nhau. Như thế nào thì tôi cũng chả rõ, nhưng ít nhất thì bạn đã bao giờ thử theo dõi chúng “càn quét” như thế nào chưa? Rất đơn giản, nếu bạn có một chút kiến thức về HTTP. Nếu bạn đã làm rồi, hẳn các bạn phải công nhận dù sao chúng cũng là những... cái máy. Tôi đã nhiều lần chứng kiến một robots/spiders (quên mất tên) suốt hai giờ liền chỉ vào đi vào lại trang “Đăng nhập” - dĩ nhiên nó mãi mãi không bao giờ đăng nhập được.

Tiêu tốn băng thông!

Đối webserver của bạn thì các robots/spiders cũng giống như các khách truy cập bình thường, và dĩ nhiên chúng cũng tiêu tốn băng thông. Bạn đã bao giờ thử thống kê con số này chưa? Đối với các website của tôi thì mỗi tháng, các robots/spiders ngốn hết bốn năm trăm MB băng thông là chuyện bình thường (xin đừng nghi ngờ độ chính xác của con số này!), trong đó Googlebot chiếm 95%.

400MB chỉ là cái... móng tay nếu webhost của bạn vào loại “ngon lành” và bạn thực sự đầu tư cho website; thế nhưng nó lại là nỗi kinh hoàng cho những chíp webmaster chỉ có thể xài host miễn phí hay cùng lắm là host giá rẻ. Lấy ngay như tôi đây, đang có một website cho một nhóm bạn chạy trên host miễn phí giới hạn 300MB băng thông mỗi tháng. Chúng tôi cả lũ dùng tích cực song chỉ đến được 10MB, vậy mà các robots/spiders đã ngốn hơn 100MB (hãi chưa?!)

Cách giải quyết?

May sao, các robots/spiders đều có những quy ước, quy tắc trong hoạt động, nhờ đó chúng ta có thể giải quyết những vấn đề trên. Một trong các cách đó là sử dụng robots.txt: Đặt file này vào thư mục gốc của website. Các robots/spiders theo quy ước sẽ đọc file này để lấy chỉ thị (của bạn) trước khi sục sạo các trang. Định dạng của robots.txt như sau:

User-agent:

Disallow:

"User-agent" chứa tên của một loại robot/spider mà chỉ dẫn "Disallow" tiếp sau có tác dụng tới, ví dụ: Googlebot, cybermapper, slurp@inktomi.com.

"Disallow" chứa URL gián tiếp của phần website mà bạn không muốn các robots/spiders rờ tới. Sau mỗi "User-agent", bạn có thể dùng nhiều "Disallow".

Ví dụ:

# cấm mọi robots/spiders

User-agent: *

Disallow:

# không cho download - tuỳ biến cho website của bạn

User-agent: *

Disallow:/download/

Disallow:/download.php

Disallow: *.zip

Lời kết

Bạn có tin tưởng và làm theo hay không là tuỳ ở bạn. Tôi không chịu bất cứ trách nhiệm gì về tính chính xác, cập nhật của thông tin cũng như bất cứ chuyện gì xảy ra đối với website của bạn.

Tham khảo:

http://www.google.com/about.html

http://www.robotstxt.org

[Đầu trang]
Trang chủ
Thư ngỏ
Nội lực "Peter Pan"
Cầu nối Intel Việt Nam
Chuyện trong tuần
Nhóm Frontpage
Cõi người ta
Kim cương doanh nghiệp
Bình luận thị trường
Cõi Mô-bai
Chuyên đề
Bổ ngửa
Nuôi hồn Robot
Túi càn khôn IT
Hồ lô biến
Cảm về Game
Nhật ký e-CHÍP
Bản quyền VASC Orient, Công ty phát triển phần mềm VASC
99 Triệu Việt Vương HN; Tel: (04) 9782235 • email: echip@vasc.com.vn