Quảng cáo Google
AddThis Social Bookmark Button
Trang chủ Quảng cáo Google Điều hướng crawl website của Spider - Bài 12
Điều hướng crawl website của Spider - Bài 12, 3.0 out of 5 based on 1 rating

Điều hướng crawl website của Spider - Bài 12

( 1 Vote )
Thứ bảy, 12 Tháng 11 2011 21:30

Chào các bạn

Đây là bài thứ mười hai trong loạt bài SEO – Search engine optimization cơ bản mà Giaiphaplienket.com muốn giới thiệu đến với tất cả các bạn, đặc biệt là những bạn mới lần đầu tìm hiểu về SEO. Trong bài trước chúng ta đã cùng nhau tìm hiểu về việc tối ưu hóa hình ảnh trong SEO. Đến với bài học mới này, chúng ta sẽ tham khảo một số cách để điều hướng đường đi của Spider. Đó là các khái niệm :

  • Rel = “nofollow”
  • Meta robots
  • Robots.txt

Chúng ta hãy đi vào phần đầu tiên :

  1. Meta robots và Rel = “nofollow” 

Ban đầu, thuộc tính nofollow xuất hiện trên các thẻ meta mức trang và chỉ dẫn các công cụ tìm kiếm không đi theo (tức là, thu thập dữ liệu) bất kỳ liên kết đi nào trên trang đó. Ví dụ:

<meta content="nofollow" /> 

Trước khi nofollow được sử dụng trên các liên kết riêng lẻ, việc ngăn cản không cho robot đi theo các liên kết riêng lẻ trên một trang đòi hỏi rất nhiều công sức (ví dụ: chuyển hướng liên kết đến một URL bị chặn trong robots.txt). Đó là lý do tại sao giá trị thuộc tính nofollow của thuộc tính rel được tạo. Điều này giúp cho quản trị web kiểm soát chi tiết hơn thay vì thông báo cho công cụ tìm kiếm và các bot không đi theo bất kỳ liên kết nào trên trang đó, nó giúp bạn dễ dàng chỉ dẫn các robot không thu thập dữ liệu một liên kết cụ thể. Ví dụ:

<a href="/signin.php" rel="nofollow">sign in</a>

(trích từ Google)

     2. Robots.txt

Đây là một tập tin thông báo cho spider biết nên crawl phần nào trên website. Robots.txt hữu dụng khi bạn muốn chặn không cho spider vào crawl một số phần cụ thể trên website hoặc không muốn tốn nhiều banwidth bởi spider. 

Bạn phải upload file robots.txt lên thư mục root của website.

Cấu trúc cơ bản của một file robots.txt như sau :

User-agent: *

Disallow: /file hoặc thư mục không được cho phép crawl (block)

Allow: /file hoặc thư mục được cho phép crawl

Dòng đầu tiên : User-agent: * sẽ áp dụng cho tất cả bot của Search Engines.

Bạn nên sử dụng webmaster tools của Google kết hợp với file robots.txt để điều hướng cho search engine. Webmaster Tools là một công cụ rất hữu ích để bạn test các bot của search engine xem chúng bị block phần nào và được cho phép phần nào.

Trong robots.txt thì phân biệt giữa chữ in hoa và chữ in thường. Ví dụ /Folder và /folder là khác nhau.

Bởi vì trang chủ thì quan trọng nên khi test bạn nên bao gồm luôn cả URL của trang chủ trong phần test.

test google

Bạn có thể tìm hiểu kỹ hơn về Robots.txt tại topic sau : sử dụng robots.txt

Đến đây giaiphaplienket.com xin kết thúc bài thứ mười hai tại đây. Hẹn gặp các bạn trong bài viết 13 sắp tới. Chúc các bạn một ngày vui vẻ.

Nguồn : giaiphaplienket.com



Thêm trang này vào các mạng xã hội
 

Bình luận  

 
0 #1 EVE Isk 2012-01-30 15:52
I have been keeping track of your site for a long time I read these articles, this is an interesting reading I will continue to pay attention to it more
Your article is one of the most classical style, when I read once, I have been deeply in love with them, you look forward to more perfect work.
Trích dẫn
 
 
0 #2 admin 2012-01-31 21:11
Thanks EVE. Love to see your comments here.
Trích dẫn
 

Viết bình luận


mã bảo mật
Đổi mã khác

rss