Cách Google thu thập thông tin và xếp hạng thứ hạng từ khóa

Tú Cao Tác giả Tú Cao 27/02/2014 12 phút đọc

Có rất nhiều câu hỏi có gửi đến cho mình, và rất nhiều vấn đề liên quan. Nhưng Tú nhận thấy bạn hoàn toàn có thể hiểu, và tự trả lời cũng như phát triển thêm kỹ năng trong SEO nếu bạn nắm bắt rõ Google hoạt động ra sao, chúng thu thập thông tin như thế nào để giải quyết truy vấn của người dùng chỉ với 0,5s là trả về kết quả. Cũng như cách chúng xếp hạng các Website.

Google thu thap thon gtin va xep hang tu khoa
Google thu thập thông tin và xếp hạng từ khóa

Google thu thập thông tin và xếp hạng thứ hạng từ khóa

Trước khi đi vào bài viết bạn có thể xem qua Video.

Quá trình "Thu thập thông tin và lập chỉ mục" Website của Google

(Lưu ý rằng video này có phụ đề bằng Tiếng Việt)  Để bật phụ đề Tiếng Việt bạn làm theo hướng dẫn trong hình bên dưới. 

Google hoạt động thế nào

Cách thức hoạt động của tính năng Tìm kiếm

Các quy trình này thiết lập nền tảng — đó là cách chúng tôi thu thập và sắp xếp thông tin trên web để chúng tôi có thể đưa ra các kết quả hữu ích nhất cho bạn. Chỉ mục của chúng tôi ở mức hơn 100.000.000 gigabyte và chúng tôi đã dành trên một triệu giờ tính toán để tạo chỉ mục. Tìm hiểu thêm về các thông tin cơ bản trong video ngắn này. Tải về Inforgraphic để xem quy trình bằng hình ảnh: Tại đây.

(Google.com)

Hiểu một cách đơn giản, không phải khi bạn truy vấn tìm kiếm. Google mới thu thập dữ liệu và đưa ra kết quả cho người dùng. Google sẽ sử dụng những con robots để bò vào những liên kết trên mạng Internet. 

Những con robot này có nhiệm vụ đi theo những liên kết có tại trang đích (url) đó. Khi một con robot bò vào đường dẫn A, nó phát hiện có 10 liên kết tại trang có đường dẫn A, nó sẽ tự nhân bản thêm 10 con robots để đi theo 10 đường dẫn đó .....

google bot crawler
Con bot của Google

Robots chúng sẽ làm những gì ?

Robots chúng di chuyển như những nhện (spider), quá trình thu thập dữ liệu (crawler), dữ liệu mà robots đọc được sẽ là dạng ký tự HTML (HyperText Markup Language - Ngôn ngữ đánh dấu siêu văn bản (Theo Wiki) ) tức là những đoạn mã hiển thị dạng ký tự mà cấu tạo nên Website. Đối với Robots ngôn ngữ lập trình Php, Asp, Java, Ruby, Python.... không quan trọng vì trình duyệt sẽ biên dịch chúng ra ngôn ngữ HTML.  Vì thế chúng không thể hiểu nội dung của File Audo, của file Flash.... với những file ảnh thì hiện tại Google đã phát triển được khả năng nhận dạng chúng, và chúng có thể hiểu được một phần. 

Nhưng chủ yếu vẫn thông qua việc bạn khai báo thuộc tinh alt, tên file của anh.

Khi thu thập dữ liệu HTML này, robots sẽ bóc tách nội dung của Page ra và sau đó chúng sẽ loại bỏ những cú pháp của ngôn ngữ HTML, giữ lại những đoạn là nội dung dạng TEXT. Và từ đây chúng bóc tách tiếp để xem số lượng từ, mật độ từ khóa (keyword density). 

Chúng dựa vào một số yếu tố như Title, Description.... và quan trọng là mật độ từ khóa để xác định nội dung mà Page nó thu thập được đang nói tới.... đồng thời qua trình này chúng còn lưu lại số lượng các liên kết nội bộ, liên kết ngoài của những Page chúng thu thập được.

Nội dung mà những con Robots đọc được,
Nội dung mà những con Robots đọc được,

VD: Như hình trên Page 2 sẽ có 2 liên kết nội bộ (internal link).

Sau khi tổng hợp, chúng sẽ gửi dữ liệu về phía Server lưu trữ của Google. Bây giờ tổng hợp khoảng 200 yếu tố xếp hạng website khác để đưa ra kết quả tốt nhất cho người dùng.

 Điều này giải thích vì sao khi bạn gõ từ khóa tìm kiếm --> google sẽ đưa ra cho bạn kết quả chỉ với 0,5s xử lý mà vẫn đảm bảo dữ liệu luôn tốt.

Google sẽ xắp sếp thông tin bằng cách lập chỉ mục

Sắp xếp thông tin bằng cách lập chỉ mục

Hệ thống web giống như một thư viện công cộng không ngừng phát triển với hàng tỷ cuốn sách và không có hệ thống quản lý trung tâm. Google về cơ bản gom góp các trang web trong quá trình thu thập thông tin, sau đó tạo chỉ mục để chúng tôi biết chính xác cách tra cứu nội dung. Giống như chỉ mục ở phía sau của một cuốn sách, chỉ mục của Google cũng bao gồm thông tin về các từ và vị trí của chúng. Khi bạn tìm kiếm, ở mức cơ bản nhất, các thuật toán của chúng tôi sẽ tra cứu những cụm từ tìm kiếm của bạn trong chỉ mục để tìm các trang phù hợp. Quy trình tìm kiếm trở nên phức tạp hơn kể từ giai đoạn đó. Khi bạn tìm kiếm từ  “chó” bạn không muốn một trang với từ “chó” xuất hiện hàng trăm lần. Bạn có thể muốn tìm hình ảnh, video hoặc một danh sách các giống chó. Các hệ thống lập chỉ mục của Google ghi chú nhiều khía cạnh khác nhau của trang, chẳng hạn như thời gian trang được xuất bản, liệu trang có chứa hình ảnh và video hay không và nhiều hơn thế. Với Đồ thị tri thức này, chúng tôi tiếp tục đi xa hơn việc kết hợp từ khóa để hiểu rõ hơn về con người, địa điểm và những thứ mà bạn quan tâm.

Nguồn: google.com

Nắm bắt nguyên tắc này, rất nhiều SEOer (mũ đen) có thể đánh lừa đươc Google (phần lớn sẽ bị phát hiện), để có thể nâng cao thứ hạng Website của mình như ẩn nội dung cho Robots, cho đoạn văn bản SPAM hiển thị trùng với màu nền, cho kích thước chữ quá bé để người dùng không nhìn thấy..... Google, Bing và các công cụ tìm kiếm khác còn phát triển thêm những thuộc tính mới như follow và nofollow để người lập trình có thể điều hướng Robots đi tới những nội dung tốt nhất.

Cũng từ đây, khi bạn thiết kế hoặc thuê người thiết kế Website, bạn có thể tối ưu được bằng cách điều hướng robots, sắp xếp Code một cách hợp lý để thân thiện nhất với Googlebot như sắp xếp các thẻ title, description ưu tiên lên trên, sử dụng những đoạn mã khai báo Java script xuống dưới, hoặc đẩy nội dung text cần SEO dịch sang trái....  nhớ đó Website của bạn sẽ trở nên thân thiện hơn với những con Robots, quá tình crawler dữ liệu của chúng sẽ tốt hơn. 

Tài nguyên Server của Google là "hữu hạn" vì vậy ngoài những việc tối ưu về SEO, thì việc tối ưu về Website là hết sức cần thiết.

Ở bài viết sau, Tú sẽ lấy demo cho các bạn về quá trình Google đọc dữ liệu, dữ liệu Google sẽ lấy, sắp xếp và phân loại các con bot.... cũng như chia sẻ với các bạn một số phương pháp, thủ thuật SEO mũ đen nên tránh dựa trên chính những kiến thức về bài viết cách "Google thu thập dữ liệu và xếp hạng từ khóa" ở bài viết này. Hãy đặt câu hỏi nếu bạn cảm thấy thắc mắc thì bài viết sau bạn sẽ rễ hiểu hơn và hiểu tận gốc được vấn đề.

Tú Cao
Tác giả Tú Cao Admin

"Hạnh phúc không phải là nhận, hạnh phúc chính là sự cho đi" - đây là lý do Tú xây dựng Blog này. Bài viết trên dự dựa trên quan điểm, hiểu biết của cá nhân. Nó có thể đúng, cũng có thể sai tùy thời điểm, vì vậy bạn phải tự cân nhắc và chịu trách nhiệm khi làm theo. Nếu bạn thấy nội hữu ích với bạn, hãy Mời Tú Cao một tách CÀ PHÊ.

Bài viết trước Thế nào là một Website chuẩn SEO ?

Thế nào là một Website chuẩn SEO ?

Bài viết tiếp theo

Hướng dẫn cập nhật extension trên Chrome của Google

Hướng dẫn cập nhật extension trên Chrome của Google
Viết bình luận
Thêm bình luận

15 Bình luận

Thang máy gia đình

Cảm ơn mình đã làm được

Trả lời
21:24 13/01/2022
C
colam

HI anh Tú, Gần đây e có tạo 1 website bằng wordpress, em sử dụng YoastSEO để tạo sitemap, sau đó em đã up sitemap lên google search console. Nhưng thời gian gần 10 ngày vẫn không có thông báo gì, website của em vẫn không xuất hiện trên google. Mong anh hướng dẫn em cách fix lỗi, google search console vẫn báo không thể đọc sơ đồ trang web. Cảm ơn anh

Trả lời
14:49 11/01/2021
B
quang bảo

bác cho em hỏi vấn đề này. trang wed em lập được chỉ mục và em củng tạo sitemap rồi , nhưng lại báo: Đã được lập chỉ mục, chưa được gửi trong sơ đồ trang web Khám phá Sơ đồ trang web Không có Trang giới thiệu Không phát hiện được trang nào trunglamdecor.com bác ạ

Trả lời
10:04 18/06/2019
T
Hoàng Tôn

Kiến thức bác Tú Cao chia sẻ rất hữu ích cảm ơn bác em là newbie rất ham đọc những thứ về seo lắm

Trả lời
11:22 30/10/2017
D
Anh Dũng

cám ơn bạn, bài viết rất hữu ích !

Trả lời
19:40 28/04/2017
Popup image default

Bài viết liên quan

Thông báo