Google search hoạt động như thế nào?

Khi tìm kiếm một từ khoá trên Google search, ta thấy kết quả hiện ra mấy nghìn trang cung cấp thông tin, tuy nhiên chắc ít đặt câu hỏi là Google liệt kê nguồn thông tin đó như thế nào. Bài viết này nhằm giải đáp câu hỏi nguyên tắc Google lục tìm thông tin và đưa vào kết quả tìm kiếm khi người dùng search một từ khóa cụ thể là như thế nào? Hiểu được nguyên tắc này là cơ sở quan trọng để tìm hiểu sâu hơn về seo.

Google có 3 phần khác nhau:

- Googlebot: hay còn gọi là web crawler, chuyên đi tìm và quét các trang webpage

- The Indexer: có vai trò sắp xếp lại kho thông tin mà Googlebot gửi về, lưu trữ dưới dạng alphabet để thuận lợi cho quá trình xử lý truy vấn của người dùng.

- The query processor: có vai trò so sánh giữa từ khoá truy vấn với kho index để tìm ra trang thông tin phù hợp nhất với truy vấn.

1. Googlebot (Google’s web crawler) (Bộ quét dữ liệu của Google)

Googlebot có vai trò tìm kiếm các trang webpage trên Internet để chuyển vào kho Index của Google. Chức năng của nó giống như duyệt tìm tài liệu trên computer, khi bạn đưa ra yêu cầu tìm file thì nó sẽ truyền yêu cầu tới hệ thống server để lấy thông tin cần thiết, rồi quét toàn bộ nội dung trang và chuyển tới Indexer

Googlebot bao gồm nhiều computer yêu cầu và quét dữ liệu rất nhanh nhất khi duyệt tìm thông tin. Thực tế, Googlebot có thể truy vấn đồng thời hàng nghìn trang web.

Googlebot tìm thấy thông tin theo hai cách: từ dữ liệu đăng ký url tại www.google.com/addurl.html hoặc trực tiếp quét dữ liệu trên hệ thống data internet.

Khi Googlebot quét một trang webpage thì nó sẽ ghi nhận tất cả các link có trên trang đó, và thêm nó vào khu lưu trữ chờ cho những lần truy quét sau. Nhờ đó, Googlebot rất nhanh chóng thu thập được hết mọi mạng lưới thông tin trên internet –> do đó việc tạo các link nội bộ liên kết giữa các trang webpage là rất quan trọng.

2. Google’s indexer (Kho lưu trữ của Google)

Googlebot cung cấp cho Indexer đầy đủ nội dung văn bản (text) của các trang nó tìm thấy. Kho index của Google lưu trữ dữ liệu theo alphabet theo từng cụm từ khóa, cho phép truy vấn thông tin một cách nhanh chóng và rất khoa học.

3. Google’s Query Processor (Bộ xử lý của Google)

Bộ xử lý gồm nhiều phần, có bao gồm cả thanh tìm kiếm (nhận trực tiếp yêu cầu tìm kiếm của người dùng), nó sẽ đánh giá từ khóa tìm kiếm rồi lục tìm dữ liệu trong kho của Google để cho ra kết quả.

PageRank là một hệ thống của Google chuyên đánh giá thứ hạng trang webpage. Một trang có Pagerank cao (độ uy tín cao) thì sẽ được coi là quan trọng hơn và sẽ được hiển thị cao hơn những trang khác với pagerank thấp hơn –> đó là lý do vì sao nhiều doanh nghiệp cần mua/thuê backlink/textlink để có thể tăng pagerank cho trang webpage của họ.

Google dựa vào hàng 100 tiêu chí để đánh giá pagerank trang webpage và xem trang thông tin nào có độ liên quan nhất tới tìm kiếm, bao gồm cả sự phổ biến của trang webpage, vị trí và độ dày của từ khóa trong trang, sự phân bổ các từ khóa trên trang.

Ngoài ra, Google không chỉ đơn giản là đọc và quét nội dung văn bản trên các trang webpage, mà còn đọc cả code HTML của trang đó, vì vậy cũng cần tối ưu title, link url. body trang, links trỏ tới trang đó…

Tóm tắt quy trình xử lý của Google:

nguyên tắc hoạt động của Google