Bạn đã cấu hình file robots.txt của mình đúng hay chưa? Bài viết này sẽ giúp bạn có một cái nhìn đúng về robots.txt là gì? và cấu hình cho phù hợp, hạn chế việc đối thủ khai thác nhằm hạ điểm chất lượng website của bạn.
File robots.txt là gì ?
Tệp robots.txt là một tệp ở gốc trang web của bạn cho biết những phần thuộc trang web bạn không muốn cấp quyền truy cập cho trình thu thập dữ liệu của công cụ tìm kiếm. Đây là file đầu tiên mà Google Bot sẽ đọc khi truy cập Website của bạn.
File robots.txt bao gồm giao thức là một tệp nhỏ các lệnh để quy định cho các cỗ máy tìm kiếm dữ liệu được phép hoặc không được phép thu thập dữ liệu trong website của bạn.
File robots.txt để làm gì?
Cho phép hoặc hạn chế Google Bot (hay các công cụ thu thập dữ liệu khác như Cốc Cốc Bot, Bing bot, Ahrefs…) được phép lập chỉ mục, thu thập dữ liệu Website của bạn. Robots.txt được sử dụng để kiểm soát lưu lượng truy cập của Bot, hạn chế các trang kém chất lượng, ẩn website khỏi công cụ tìm kiếm…
Các tệp lệnh nhỏ trong file robots.txt bạn cần biết
File robots.txt được nằm ở thư mục gốc của Website. Để kiểm tra website của bạn có file robots.txt hay chưa bạn chỉ cần thêm /robots.txt vào sau tên miền của bạn. Nếu có thể truy cập được thì Website đã có robots.txt . Nếu Website chưa có thì bạn chỉ cần tạo file này trên máy tính và gửi cho người code trang web.
VD: https://nguyencaotu.com/robots.txt
Một số tệp lệnh nhỏ trong file robots.txt
- User-agent: Tên loại bot
- Allow: Cho phép
- Disallow: Không cho phép
- Sitemap: Đường dẫn sơ đồ của trang web.
- Ghi chú: Dấu * thay cho chuỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có một cái tên như googlebot, bingbot, coccocbot… nếu muốn chặn một loại bot cụ thể chúng ta sẽ khai báo tên cụ thể của loại bot đó.
Các trường hợp cụ thể sử dụng file robots.txt
Robots.txt bao gồm các tệp lệnh, chỉ sử dụng để chặn các trang có cấu trúc về đường dẫn tương đồng.
1.Sử dụng file robots.txt để chặn Google (trong quá trình webiste đang xây dựng)
Trong quá trình bạn đang hoàn thiện website, cụ thể là website trong giai đoạn demo, chưa có nội dung, chưa tối ưu nội dung, hình ảnh, cấu trúc… thì bạn nên chặn Google lập chỉ mục trong thời gian này.
Cấu trúc file robots.txt như sau
User-agent: *
Disallow: /
2. Sử dụng file robots.txt để quy định nội dung nào được lập chỉ mục, nội dung nào không được lập chỉ mục.
VD: Tú có 1 website là domain.com và có 2 danh mục Apple (domain.com/apple) và Samsung (domain.com/samsung).
Do danh mục samsung chưa những bài viết kém chất lượng, chủ yếu đi copy về kéo view nên Tú không muốn Google đọc những nội dung này, bởi vậy mình sẽ chặn nó.
User-agent: *
Disallow: /samsung
Ý nghĩa: Chặn tất cả đường dẫn nào có chứa từ samsung sau dấu /
3. Sử dụng robot.txt để chặn những trang kém chất lượng, nội dung tự tạo
Phổ biến nhất là trang tìm kiếm trên mỗi Website. Trang này có nội dung kém chất lượng và bất kỳ ai đều có tự tạo nội dung ở đây. Bất kỳ từ khóa nào người dùng tìm kiếm khi gõ vào ô tìm kiếm đều được hiển thị trên Website của bạn. Vậy sẽ ra sao nếu đối thủ họ đưa các từ khóa nhạy cảm, từ khóa cấm vào website của bạn và họ xây dựng các backlink về những liên kết đó ?
Bản thân dự án Tú làm cũng có đối thủ dùng cách này để cố gắng đánh tụt các từ khóa. Phần tìm kiếm là trang mà bạn nên chặn. Mỗi một trang web có url của phần tìm kiếm khác nhau, trong ví dụ này của Tú là /?s= bởi vậy mình sẽ chặn như sau
User-agent: *
Disallow: /?s=
4. Sử dụng để chặn google index và lộ link các file download trả phí
Một số các trang web có tải lên các file pdf để người dùng tải về, thông thường các file này rất nặng sẽ gây tốn tài nguyên cho Website. Hoặc một số Website cho phép tải file trả phí nhưng ko dấu đường link download cũng có thể Google sẽ index các nội dung này. Lời nguyên tốt nhất là đừng tải file nào nặng lên Website (hacker có thể tấn công website sẽ rất nhanh bị hạ gục). Hoặc bạn có thể chặn theo cách sau để hạn chế
User-agent: *
Disallow: *.pdf
(Tương tự các loại file khác bạn cũng có thể làm như thế)
5. Sử dụng để chặn các công cụ thu thập liên kết (như Ahrefs)
Để đảm bảo an toàn cho các website vệ tinh tránh việc đối thủ nhòm ngó và biết được hệ thống của bạn, bạn nên chặn tất cả các công cụ quét liên kết (đặc biệt là ahrefs.com – công cụ check backlink lớn nhất hiện tại).
Lưu ý: Robots.txt không chặn dược các liên kết (link) tham chiếu tới Website của bạn. Để chặn ahrefs bạn cần đặt file robots.txt này trên các website vệ tinh.
User-agent: AhrefsBot
Disallow: /
Tú có tổng hợp 145 công cụ check backlink thế giới hay sử dụng. Bạn có thể tải về miễn phí và sử dụng cho vệ tinh của mình [symple_button url=”https://nguyencaotu.com/wp-content/uploads/2017/05/stop-check-backlink-robots-file.txt” color=”red” size=”default” border_radius=”3px” target=”blank” rel=”” icon_left=”download” icon_right=””]Download[/symple_button]
6. Chặn phần phân trang trong wordpress
Rất nhiều bạn sử dụng WordPress, bạn để ý ở những danh mục có nhiều bài viết thì WordPress sẽ phân trang. Những trang con chúng ta luôn bị trùng lặp title, description và thường là không SEO các trang này. Vì thế cách tốt nhất hãy chặn nó đi, tránh để google báo cáo dữ liệu chúng ta có những trang kém chất lượng, trùng lặp title, description.
VD: Danh mục iPad của Website này có phần trang. Tú không seo các page2, page3 của nó nên mình chặn.
- https://thanhtrungmobile.com/sua-chua/sua-chua-apple/ipad
- https://thanhtrungmobile.com/sua-chua/sua-chua-apple/ipad/page/2
Cấu trúc như sau
User-agent: *
Allow:/
Disallow: */page/
Sitemap: https://thanhtrungmobile.com/sitemap.xml
7. Không chặn css, javascript
Update 29/5/2019. Theo tài liệu chính thức của Google thì việc bạn chặn css, javascript có thể khiến Google bot không thể hiểu cách bạn hiển thị cho người dùng. Do đo tuyệt đối không chặn các tệp này.
Cấu trúc của 1 file robots.txt chuẩn bao gồm
Lưu ý: bạn cần chỉnh sửa cho phù hợp với Website của bạn. (thay đổi lại url tìm kiếm và link tới sitemap)
User-agent: *
Allow: /
Disallow: /tim-kiem/
Sitemap: https://domain.com/sitemap.xml
Hy vọng qua bài viết trên bạn sẽ hiểu rõ nhất về file robots.txt .
Chúc bạn thành công !
Tú cho mình hỏi web mình là: domail/bài viết .
nhưng hiện tại lại index hàng nghìn
Link: domain/idnah53eca/13555gwtajv30285
domain/jmmdf74p88/1620dayfjmp5-082
thì chặn như nào thế Tú: thanks tú
Chào Vũ,
Web của bạn mình đoán bị dính mã độc, các link phía sau được tạo ra không có cấu trúc. Do đó không thể chặn bằng robots.txt .
Cám ơn anh Cao Tú rất nhiều, em đang dùng bài viết này để tạo file robot.txt cho site của em. Cho em hỏi mấy ý với ạ:
1. Link tìm kiếm của e có dạng domain…./?s=KEYWORD thì e để là Disallow:*/?s= hay là Disallow:*/?s=*?
2. Việc chặn các bot như ahrefs là có cần thiết hay không ạ?
Em cám ơn!
Chặn bot ahrefs phải chặn trên các trang vệ tinh (trang mình đặt link) chứ chặn trang chính thì không có ý nghĩa gì cả.
Việc chặn chỉ là cách để làm cho đối thủ khó check hệ thống mình có mà thôi.
rất cảm ơn anh Tú, giờ e mới hiểu bản chất của các thành phần trong file này, trước cứ copy thủ công trên mạng về k hiểu
Cảm ơn bạn đã chia sẻ, mình có sài Yoast seo và trong đó có thể sửa trực tiếp tệp robots.txt
như thế này bạn thấy có hợp lệ hay cần sửa gi không bạn, mình Cảm ơn rất nhiểu
Website: https://ksnguyenhieu.com
User-agent: *
Allow: /
Sitemap: https://ksnguyenhieu.com/sitemap.xml
Sitemap: https://ksnguyenhieu.com/news-sitemap.xml
User-agent: *
Allow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Để như này mới chuẩn.
User-agent: *
Allow: /
Sitemap: https://ksnguyenhieu.com/sitemap.xml
Sitemap: https://ksnguyenhieu.com/news-sitemap.xml
Chào bạn.
Ví dụ:
Mình có một bài viết như:
https://giupbanhocnghe.com/thanh-thao-3-ky-nang-tin-hoc-van-phong/
nhưng nó sinh ra những link khác sau link bài viết:
https://giupbanhocnghe.com/thanh-thao-3-ky-nang-tin-hoc-van-phong/dao-tao-tin-hoc
https://giupbanhocnghe.com/thanh-thao-3-ky-nang-tin-hoc-van-phong/day-tin-hoc
thì mình muốn chặn những link tự sinh ra đó thì làm sao vậy bạn? Thanks
Mình có thử bấm vào cả 3 url kia thì đều được chuyển tới các trang đích đúng rồi. Vậy nên bạn không cần làm gì cả.
Cảm ơn bạn đã trả lời, ý mình là mình không muốn cho robot index những đường link đó.
Tú có thể share mình code chặn check ahref được không ? Có tham khảo trên mạng hướng dẫn, làm tương tự như thế, nhưng 1 tháng sau check ahref vẫn được.
Chào bạn,
Tú có share ở trên đó bạn, trong file này https://nguyencaotu.com/wp-content/uploads/2017/05/stop-check-backlink-robots-file.txt . Nó là 2 dòng đầu tiên.
Do bạn không làm từ đầu nên ahrefs nó lấy rồi, vì thế bạn check vẫn còn, Cần thời gian để nó quét lại nhé.
chào Tú. mình sd fiel ntn có được không?
User-agent: *
Disallow: /wp-admin/
Disallow: *?replytocom
Disallow: */attachment/*
Disallow: /page/
Disallow: /?s=
Disallow: /page/*
Allow: /*.js$
Allow: /*.css$
Allow: /wp-admin/admin-ajax.php
Sitemap: https://tcsmoitruong.com/sitemap_index.xml
Allow: /*.js$
Allow: /*.css$
Allow: /wp-admin/admin-ajax.php
Xóa mấy cái trên đi vì ko cần thiết đâu.
Anh xem hộ em file robots em như thế này có tốt chưa ? em cám ơn
# we use Bizweb as our ecommerce platform
User-agent: *
Disallow: /admin
Disallow: /orders
Disallow: /checkout
Disallow: /account
Disallow: /collections/*+*
Disallow: /collections/*%2B*
Disallow: /collections/*%2b*
Disallow: /blogs/*+*
Disallow: /blogs/*%2B*
Disallow: /blogs/*%2b*
Sitemap: https://zuka.vn/sitemap.xml
User-agent: Nutch
Disallow: /
User-agent: MJ12bot
Crawl-Delay: 10
User-agent: Ahrefs
Crawl-Delay: 10
Trông ổn nhé bạn.
giờ em mới đọc, vẫn còn rất bổ ích, cảm ơn anh tú
Anh ơi cho em hỏi WordPress của em có tên là msmoon87.com mua từ bên Fatcow thì nếu em liên hệ để sửa thư mục gốc thì có phải là liên hệ bên Fatcow không hả anh? Em đang muốn upload Sitemap lên Google Search Console thì nó hiển thị là bị chặn. Em chưa biết làm thế nào. Mong sớm nhận được câu trả lời của anh ạ. Em cảm ơn anh ạ.
Hiện tại website của em Google nó index những link dạng như bên dưới, vì e có dùng WooCommerce. Vậy em không muốn index những link như vậy thì phải soạn file robots.txt như thế nào vậy a?
Vd:
*/?orderby=popularity
*/?orderby=rating
*/?orderby=date
*/?orderby=price
*/?orderby=price-desc
Chào bạn,
Không cần làm gì cả, bản thân WordPress đã có canonical nên nó cũng không index các hậu tố trên nhé.
Nhưng website của em thì nó lại index những link dạng như vậy, e cũng đặt canonical rồi nhưng vẫn có thêm link như vậy bị index. Nên em cần giải pháp để loại bỏ những index như thế mà không làm dài file robots
cảm ơn bạn thông tin rất cần cho mình nhưng thông tin hữu ích lắm
Chào Tú, mình dùng Site google mới vì thấy giao diện nó khá đẹp để làm blog mà ko sao cài đặt được sơ đồ cấu trúc, bị chặn googlebot, update robot.txt trong search console mà đợi mãi ko thấy nó duyệt . Có cách nào ko bạn ?
Chào bạn,
Tú không sử dụng Google Site nên cũng không rõ các tính năng và việc nâng cấp thời gian gần đây. Nhưng có 2 hướng để bạn tìm
1- Bạn xem lại cấu hình xem, bạn đã chắc chắn website ở chế độ công khải (public).
2- Tìm xem có chỗ nào tùy chỉnh robots hay không.
Việc bạn cập nhật robots file trong Search Console không có tác dụng nếu vẫn còn file cũ trên server.
Xin chào adm, adm xem giúp mình blog này với http://matnguon.blogspot.com/
Mình tự học nên cũng k hiểu nhiều về thuật ngữ, bạn có thể giúp mình cài Robots.txt tùy chỉnh và Thẻ tiêu đề robot tùy chỉnh tối ưu được không. mình muốn gg index trang chủ, bài viết, label và các trang. còn lại chặn không cho index. b có thể cho m xin code chuẩn được không
Bạn ơi cho mình hỏi cái mh dùng Disallow: */page/ để chặn phân trang mà vẫn bị. dùng luôn trường hợp này có được ko bạn Disallow: */page/*.
Chào bạn,
Bạn nên viết chính xác là
DIsallow: /page/*
Chào tú: cho mình hỏi sitemap mình không để thư mục gốc, nhưng mình router nó về được không vd: router[‘sitemap.xml’]= ‘modules/subfolder/sitemap.php’; cho mình hỏi luôn là khi router như thế thì htaccess như thế nào
Chào bạn,
Việc để ở thư mục gốc hay không không quan trọng, bạn chỉ cần chú ý 2 điểm
* Trong Google Webmaster bạn khai báo về đường dẫn của bạn
* Bạn đã cấu hình file sitemap trong robots.txt
Cái này giống như nền tảng Xenforo, sitemap không nhất thiết cứ phải ở thư mục gốc.
Bạn ơi cho mình hỏi mình chút. mình thây web mình có 1 số bài tự tạo ra có dang ntn: domain.com/?m=0. nên mình đình Disallow trong file robot.txt ntn:
Disallow: /?m
Bạn xem mình làm như thế có được ko
Link ?= mình đoán có thể là mobile, với các link dạng ? thì không cần phải chặn nếu ko cần thiết.
Bạn ơi cho mình hỏi file robot.txt nằm ở đâu ạ. mình tìm trong yoast không ra. có phải nó nằm trong webmaster tools nữa đúng không bạn
File robots.txt nằm ở thư mục gốc của website. Nơi mà bạn tải code lên, bạn liên hệ với bên cung cấp dịch vụ hosting họ sẽ cấp tài khoản cho bạn vào chỉnh sửa.
Chào Tú.
Mình có site chính lâu năm nên khá mạnh. mình trỏ linh từ đó về site nhỏ hơn để kéo site nhỏ hơn lên. Nhưng ko biết vì lí do gì mà mất hết link từ site to đó. kiểm tra robot thì ko thấy chặn. Không biết là lỗi ở đâu. Mong tú giúp đỡ
Chào bạn,
Bạn cứ đặt link, nếu trang đặt link được index có nghĩa là link đã về trang kia. Google cố tình thu nhập chậm và hiển thị ít đi các kết quả nên không cần lo nhé.
Hi Tú, bạn có biết tên bot của Rank Signals là gì không, chia sẻ cho mình biết được không.
Chào bạn,
Mình vừa thử tìm qua thì ko thấy, bạn contact với chủ sở hữu hỏi xem. Tú nghĩ họ sẽ vui vẻ trả lời thắc mắ của bạn.
bài viết chi tiết
Chào anh Tú,
Hiện tại mình đang gặp vấn đề nghiêm trọng trong webmaster, nó luôn hiện báo lỗi các liên kết dạng;
abc.html/abc
Mặc dù mình không hề tại liên kết dạng trên, chỉ là postname.html
Điều này dẫn đền việc báo thẻ meta trùng lập hai trang
abc.html
và abc.html/abc
Vậy có cách này sửa lỗi trên không? Nhờ anh tư vấn giúp, nếu dùng trong robot.txt thì viết cú pháp ra sao để chặn chúng.
Xin cảm ơn.
Chào bạn,
Trường hợp này do trong code nó sai mà lại không có thẻ canonical chuẩn. Có 3 cách
01: Bạn tìm trong code, xem chỗ nào gọi là cái link abc rồi xóa đi
02: Nếu dùng robots thì chặn bằng lệnh Disallow: *.html/
03: Sử dụng thẻ canonical, xem ở đây https://nguyencaotu.com/canonical-tags-rel-canonical.html
Chúc bạn thành công.
Đùa chứ ? Anh có tâm quá . cảm ơn anh nhé
Anh cho e hỏi, em tự lên cấu hình cho tệp rotbot.txt như thế này được chưa ? về phần trình bày đó a?
User-Agent:*
Disallow: admincp
Sitemap: http://bomhutchankhong.vn/sitemap.xml
Chào em,
Em nên viết thế này.
User-Agent: *
Allow: /
Disallow: /admincp
Sitemap: http://bomhutchankhong.vn/sitemap.xml
Vâng. Em cảm ơn anh.
Bạn cho mình hỏi. Muốn sửa file robots.txt theo cấu hình chuẩn của WordPress là như thế nào ?. Mình có làm theo bạn nói: vào file robots.txt theo cấu trúc http://domain.com/robots.txt thì cách nào để sửa và lưu lại được robots.txt đã sửa và upload lên.
Chào bạn.
Bạn cần tài khoản hosting mới tải lên được. Liên hệ đơn vị bạn thuê host họ sẽ hướng dẫn.
Mình tìm phần chặn phân trang sáng giờ mới tìm thấy bài của bạn. Cảm ơn bạn rất nhiều ạ. Chúc bạn sức khỏe và có nhiều chia sẻ hữu ích thêm nữa.
Thank bài viết.
Thanks admin đã chia sẻ
Thanks anh, bài viết rất hay và chi tiết a ah.