Khám phá SEO Onpage do dịch vụ seo Fame Media TpHCM biên soạn và trình bày. Chương 2: CÁCH ở CỦA CÁC ĐỘNG CƠ TÌM KIẾM: CRAWLING, INDEXING và RANKING
Đầu tiên, hãy xuất hiện.
Như chúng tôi đã đề cập trong Chương 1, công cụ tìm kiếm là máy trả lời. Chúng tồn tại để khám phá, hiểu và sắp xếp nội dung của internet để đưa ra kết quả tối ưu nhất cho những câu hỏi mà người tìm kiếm đang hỏi.
Để hiển thị trong kết quả tìm kiếm, nội dung của bạn trước tiên cần hiển thị cho các công cụ tìm kiếm. Đây được cho là phần quan trọng nhất của câu đố SEO: Nếu trang web của bạn không thể được tìm thấy, bạn sẽ không bao giờ xuất hiện trong SERPs (Trang kết quả của công cụ tìm kiếm).
Công cụ tìm kiếm hoạt động như thế nào?
Công cụ tìm kiếm có ba chức năng chính:
Thu thập thông tin: Tìm kiếm nội dung trên Internet, xem qua mã / nội dung cho từng URL mà họ tìm thấy.
Chỉ mục: Lưu trữ và sắp xếp nội dung được tìm thấy trong quá trình thu thập thông tin. Khi một trang đã có trong chỉ mục, trang đó sẽ được hiển thị do kết quả của các truy vấn có liên quan.
Xếp hạng: Cung cấp các phần nội dung sẽ trả lời tốt nhất truy vấn của người tìm kiếm, có nghĩa là các kết quả được sắp xếp theo thứ tự tối ưu nhất đến ít liên quan nhất.
Công cụ tìm kiếm thu thập thông tin là gì?
Thu thập thông tin là quá trình khám phá trong đó các công cụ tìm kiếm gửi một nhóm rô bốt (được gọi là trình thu thập thông tin hoặc trình thu thập thông tin) để tìm nội dung mới và cập nhật. Nội dung có thể khác nhau - đó có thể là một trang web, hình ảnh, video, PDF, v.v. - nhưng bất kể định dạng nào, nội dung được phát hiện bởi các liên kết. Googlebot bắt đầu bằng cách tìm nạp một vài trang web, sau đó theo các liên kết trên các trang web đó để tìm các URL mới. Bằng cách nhảy dọc theo đường dẫn liên kết này, trình thu thập thông tin có thể tìm thấy nội dung mới và thêm nội dung đó vào chỉ mục của họ có tên Caffeine - một cơ sở dữ liệu khổng lồ về các URL được phát hiện - để sau đó được truy xuất khi người tìm kiếm đang tìm kiếm thông tin rằng nội dung trên URL đó là tối ưu tốt cho.
Chỉ mục công cụ tìm kiếm là gì?
Công cụ tìm kiếm xử lý và lưu trữ thông tin họ tìm thấy trong một chỉ mục, một cơ sở dữ liệu khổng lồ về những nội dung mà họ đã khám phá và cho là đủ tốt để cung cấp cho người tìm kiếm.
Khi ai đó thực hiện tìm kiếm, các công cụ tìm kiếm sẽ lùng sục chỉ mục của họ để tìm nội dung có liên quan cao và sau đó đặt hàng nội dung đó với hy vọng giải quyết được truy vấn của người tìm kiếm. Thứ tự kết quả tìm kiếm theo mức độ liên quan được gọi là xếp hạng. Nói chung, bạn có thể cho rằng một trang web được xếp hạng càng cao thì công cụ tìm kiếm càng tin rằng trang web đó có liên quan đến truy vấn.
Có thể chặn trình thu thập thông tin của công cụ tìm kiếm khỏi một phần hoặc toàn bộ trang web của bạn hoặc hướng dẫn các công cụ tìm kiếm tránh lưu trữ một số trang nhất định trong chỉ mục của chúng. Mặc dù có thể có lý do để làm điều này, nhưng nếu bạn muốn nội dung của mình được người tìm kiếm tìm thấy, đầu tiên bạn phải đảm bảo rằng trình thu thập thông tin có thể truy cập được và có thể lập chỉ mục. Nếu không, nó tốt như vô hình.
Đến cuối chương này, bạn sẽ có bối cảnh cần thiết để trú tại với công cụ tìm kiếm, thay vì chống lại nó!
Trong SEO, không phải các các công cụ tìm kiếm đều bình đẳng
Nhiều người mới bắt đầu thắc mắc về tầm quan trọng tương đối của các công cụ tìm kiếm cụ thể. Hầu hết quý khách đều biết rằng Google có thị phần lớn nhất, nhưng điều quan trọng là tối ưu hóa cho Bing, Yahoo và những người khác như thế nào? Sự thật là bất chấp sự tồn tại của hơn 30 công cụ tìm kiếm web lớn, cộng đồng SEO chỉ thực sự chú ý đến Google. Tại sao? Câu trả lời ngắn gọn là Google là nơi mà phần lớn các bạn tìm kiếm trên web. Nếu chúng tôi bao gồm Google Hình ảnh, Google Maps và YouTube (một san pham của Google), hơn 90% tìm kiếm trên web xảy ra trên Google - gần gấp 20 lần Bing và Yahoo cộng lại
Thu thập thông tin: Công cụ tìm kiếm có thể tìm thấy các trang của bạn không?
Như bạn vừa tìm hiểu, đảm bảo trang web của bạn được thu thập thông tin và lập chỉ mục là điều kiện tiên quyết để hiển thị trong SERPs. Nếu bạn đã có một trang web, có thể bắt đầu bằng cách xem có bao nhiêu trang của bạn trong chỉ mục. Điều này sẽ mang lại một số thông tin chi tiết tuyệt vời về việc liệu Google có đang thu thập dữ liệu và tìm thấy các các trang bạn muốn hay không và không trang nào mà bạn không làm.
Một cách để kiểm tra các trang được lập chỉ mục của bạn là "site: yourdomain.com", một toán tử tìm kiếm nâng cao. Truy cập Google và nhập "site: yourdomain.com" vào thanh tìm kiếm. Điều này sẽ trả về kết quả mà Google có trong chỉ mục của mình cho trang web được chỉ định:
Số lượng kết quả mà Google hiển thị (xem “Về kết quả XX” ở trên) không chính xác, nhưng nó cung cấp cho bạn một ý tưởng chắc chắn về những trang nào được lập chỉ mục trên trang web của bạn và cách chúng hiện đang hiển thị trong kết quả tìm kiếm.
Để có kết quả chính xác hơn, hãy theo dõi và sử dụng báo cáo Trạng thái lập chỉ mục trong Google Search Console. Bạn có thể đăng ký một tài khoản Google Search Console miễn phí nếu bạn hiện chưa có. Với công cụ này, bạn có thể gửi sơ đồ trang web cho trang web của mình và theo dõi số lượng trang đã gửi đã thực sự được thêm vào chỉ mục của Google, trong số những thứ khác.
Nếu bạn không hiển thị ở bất kỳ đâu trong kết quả tìm kiếm, thì có một số lý do có thể xảy ra:
Trang web của bạn là thương hiệu mới và chưa được thu thập thông tin.
Trang web của bạn không được liên kết đến từ bất kỳ trang web bên ngoài nào.
Điều hướng trang web của bạn khiến rô bốt khó thu thập dữ liệu một cách hiệu quả.
Trang web của bạn chứa một số mã cơ bản được gọi là chỉ thị trình thu thập thông tin đang chặn các công cụ tìm kiếm.
Trang web của bạn đã bị Google phạt vì các chiến thuật spam.
Cho các công cụ tìm kiếm biết cách thu thập dữ liệu trang web của bạn
Nếu bạn đã sử dụng Google Search Console hoặc toán tử tìm kiếm nâng cao “site: domain.com” và nhận thấy rằng một số trang quan trọng của bạn bị thiếu trong chỉ mục và / hoặc một số trang không quan trọng của bạn đã bị lập chỉ mục nhầm, bạn có thể thực hiện một số cách thích nghi hóa triển khai để hướng dẫn Googlebot tốt hơn cách bạn muốn nội dung web của mình được thu thập thông tin. Nói với các công cụ tìm kiếm cách thu thập dữ liệu trang web của bạn có thể giúp bạn kiểm soát tốt hơn những gì kết thúc trong chỉ mục.
Hầu hết các bạn đều nghĩ đến việc đảm bảo Google có thể tìm thấy các trang quan trọng của họ, nhưng rất dễ quên rằng có những trang mà bạn không muốn Googlebot tìm thấy. Chúng có thể bao gồm những thứ như URL cũ có nội dung mỏng, URL trùng lặp (chẳng hạn như thông số sắp xếp và lọc cho thương mại điện tử), các trang mã khuyến mại đặc biệt, trang thử nghiệm hoặc phân đoạn, v.v.
Để hướng Googlebot khỏi các trang và phần nhất định trên trang web của bạn, hãy sử dụng robots.txt.
Robots.txt
Tệp Robots.txt được đặt trong thư mục gốc của các trang web (ví dụ: yourdomain.com/robots.txt) và đề xuất những phần nào của công cụ tìm kiếm trang web của bạn nên và không nên thu thập thông tin, cũng như tốc độ chúng thu thập dữ liệu trang web của bạn , thông qua các lệnh robots.txt cụ thể.
Cách Googlebot xử lý tệp robots.txt
Nếu Googlebot không thể tìm thấy tệp robots.txt cho một trang web, nó sẽ tiến hành thu thập dữ liệu trang web.
Nếu Googlebot tìm thấy tệp robots.txt cho một trang web, nó thường sẽ tuân theo các đề xuất và tiến hành thu thập dữ liệu trang web.
Nếu Googlebot gặp lỗi trong khi cố gắng truy cập tệp robots.txt của trang web và không thể xác định xem tệp đó có tồn tại hay không, nó sẽ không thu thập dữ liệu trang web.
phù hợp hóa cho ngân sách thu thập thông tin!
Ngân sách thu thập thông tin là số lượng URL trung bình mà Googlebot sẽ thu thập thông tin trên trang web của bạn trước khi rời đi, do đó, việc thích hợp hóa ngân sách thu thập thông tin đảm bảo rằng Googlebot không lãng phí time thu thập thông tin qua các trang không quan trọng có nguy cơ bỏ qua các trang quan trọng của bạn. Ngân sách thu thập thông tin quan trọng nhất trên các trang web rất lớn với hàng chục nghìn URL, nhưng không bao giờ là ý tưởng tồi nếu chặn trình thu thập thông tin truy cập vào nội dung mà bạn chắc chắn không quan tâm. Chỉ cần đảm bảo không chặn trình thu thập thông tin truy cập vào các trang mà bạn đã thêm các lệnh khác, chẳng hạn như thẻ chuẩn hoặc thẻ noindex. Nếu Googlebot bị chặn khỏi một trang, nó sẽ không thể xem hướng dẫn trên trang đó.
Không phải những các rô bốt web đều tuân theo robots.txt. Những người có ý định xấu (ví dụ: kẻ phá hoại địa chỉ e-mail) xây dựng các bot không tuân theo giao thức này. Trên thực tế, một số kẻ xấu sử dụng tệp robots.txt để tìm nơi bạn đặt nội dung riêng tư của mình. Mặc dù có vẻ hợp lý khi chặn trình thu thập thông tin khỏi các trang riêng tư như trang đăng nhập và quản trị để chúng không hiển thị trong chỉ mục, nhưng việc đặt vị trí của các URL đó trong tệp robots.txt có thể truy cập công khai cũng có nghĩa là những người có ý định xấu có thể dễ dàng tìm thấy chúng hơn. Tốt hơn là NoIndex các trang này và đặt chúng sau biểu mẫu đăng nhập hơn là đặt chúng vào tệp robots.txt của bạn.
Bạn có thể đọc thêm chi tiết về điều này trong phần robots.txt của Trung tâm Kiến thức của chúng tôi.
Xác định tham số URL trong GSC
Một số trang web (phổ biến nhất với thương mại điện tử) cung cấp cùng một nội dung trên nhiều URL khác nhau bằng cách thêm các thông số nhất định vào URL. Nếu bạn đã từng mua sắm trực tuyến, bạn có thể đã thu hẹp tìm kiếm của mình qua các bộ lọc. Ví dụ: bạn có thể tìm kiếm “giày” trên Amazon, sau đó tinh chỉnh tìm kiếm của mình theo kích cỡ, màu sắc và mẫu mã. Mỗi lần bạn tinh chỉnh, URL sẽ thay đổi một chút:
https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32 & highlight = green + dress & cat_id = 1 & sessionid = 123 $ affid = 43
Làm cách nào để Google biết phiên bản nào của URL để phân phát cho người tìm kiếm? Google thực hiện khá tốt trong việc tự tìm ra URL đại diện, nhưng bạn có thể sử dụng tính năng Tham số URL trong Google Search Console để cho Google biết chính xác cách bạn muốn họ xử lý các trang của mình. Nếu bạn sử dụng tính năng này để thông báo cho Googlebot “không thu thập thông tin URL nào có thông số ____” thì về cơ bản bạn đang yêu cầu ẩn nội dung này khỏi Googlebot, điều này có thể dẫn đến việc xóa các trang đó khỏi kết quả tìm kiếm. Đó là những gì bạn muốn nếu các thông số đó tạo ra các trang trùng lặp, nhưng không lý tưởng nếu bạn muốn các trang đó được lập chỉ mục.
Trình thu thập thông tin có thể tìm thấy các nội dung quan trọng của bạn không?
Bây giờ bạn đã biết một số chiến thuật để đảm bảo trình thu thập thông tin của công cụ tìm kiếm tránh xa nội dung không quan trọng của bạn, hãy cùng tìm hiểu về các thích hợp hóa có thể giúp Googlebot tìm thấy các trang quan trọng của bạn.
Đôi khi công cụ tìm kiếm có thể tìm thấy các phần của trang web của bạn bằng cách thu thập thông tin, nhưng các trang hoặc phần khác có thể bị che khuất vì lý do này hay lý do khác. Điều quan trọng là đảm bảo rằng các công cụ tìm kiếm có thể khám phá vài nội dung bạn muốn được lập chỉ mục chứ không chỉ trang chủ của bạn.
Hãy tự hỏi bản thân điều này: Bot có thể thu thập thông tin qua trang web của bạn chứ không chỉ tới nó?
Nội dung của bạn có ẩn sau các biểu mẫu đăng nhập không?
Nếu bạn yêu cầu người dùng đăng nhập, điền vào biểu mẫu hoặc trả lời khảo sát trước khi truy cập nội dung nhất định, công cụ tìm kiếm sẽ không nhìn thấy các trang được bảo vệ đó. Trình thu thập thông tin chắc chắn sẽ không đăng nhập.
Bạn đang dựa vào các hình thức tìm kiếm?
Robot không thể sử dụng biểu mẫu tìm kiếm. Một số cá nhân tin rằng nếu họ đặt một hộp tìm kiếm trên trang web của họ, các công cụ tìm kiếm sẽ có thể tìm thấy mọi thứ mà khách truy cập của họ tìm kiếm.
Văn bản có bị ẩn trong nội dung không phải văn bản không?
Không nên sử dụng các biểu mẫu phương tiện không phải văn bản (hình ảnh, video, GIF, v.v.) để hiển thị văn bản mà bạn muốn được lập chỉ mục. Trong khi các công cụ tìm kiếm ngày càng nhận ra hình ảnh tốt hơn, không có gì đảm bảo rằng chúng sẽ có thể đọc và hiểu nó. Tốt nhất là thêm văn bản trong phần đánh dấu
của trang web của bạn.
Công cụ tìm kiếm có thể theo dõi điều hướng trang web của bạn không?
Cũng giống như trình thu thập thông tin cần khám phá trang web của bạn thông qua các liên kết từ các trang web khác, trình thu thập thông tin cần một đường dẫn liên kết trên trang web của riêng bạn để hướng dẫn nó từ trang này sang trang khác. Nếu bạn có một trang mà bạn muốn các công cụ tìm kiếm tìm thấy nhưng nó không được liên kết đến từ bất kỳ trang nào khác, thì nó tốt như là ẩn. Nhiều trang web mắc phải sai lầm nghiêm trọng là cấu trúc điều hướng của họ theo những cách mà các công cụ tìm kiếm không thể tiếp cận được, cản trở khả năng được liệt kê trong kết quả tìm kiếm.
Nội dung của bạn có ẩn sau các biểu mẫu đăng nhập không?
Nếu bạn yêu cầu người dùng đăng nhập, điền vào biểu mẫu hoặc trả lời khảo sát trước khi truy cập nội dung nhất định, công cụ tìm kiếm sẽ không nhìn thấy các trang được bảo vệ đó. Trình thu thập thông tin chắc chắn sẽ không đăng nhập.
Bạn đang dựa vào các hình thức tìm kiếm?
Robot không thể sử dụng biểu mẫu tìm kiếm. Một số cá nhân tin rằng nếu họ đặt một hộp tìm kiếm trên trang web của họ, các công cụ tìm kiếm sẽ có thể tìm thấy mọi thứ mà khách truy cập của họ tìm kiếm.
Văn bản có bị ẩn trong nội dung không phải văn bản không?
Không nên sử dụng các biểu mẫu phương tiện không phải văn bản (hình ảnh, video, GIF, v.v.) để hiển thị văn bản mà bạn muốn được lập chỉ mục. Trong khi các công cụ tìm kiếm ngày càng nhận ra hình ảnh tốt hơn, không có gì đảm bảo rằng chúng sẽ có thể đọc và hiểu nó. Tốt nhất là thêm văn bản trong phần đánh dấucủa trang web của bạn.
Công cụ tìm kiếm có thể theo dõi điều hướng trang web của bạn không?
Cũng giống như trình thu thập thông tin cần khám phá trang web của bạn thông qua các liên kết từ các trang web khác, trình thu thập thông tin cần một đường dẫn liên kết trên trang web của riêng bạn để hướng dẫn nó từ trang này sang trang khác. Nếu bạn có một trang mà bạn muốn các công cụ tìm kiếm tìm thấy nhưng nó không được liên kết đến từ bất kỳ trang nào khác, thì nó tốt như là ẩn. Nhiều trang web mắc phải sai lầm nghiêm trọng là cấu trúc điều hướng của họ theo những cách mà các công cụ tìm kiếm không thể tiếp cận được, cản trở khả năng được liệt kê trong kết quả tìm kiếm.
Các lỗi điều hướng phổ biến có thể khiến trình thu thập thông tin không nhìn thấy tất cả trang web của bạn:
Có điều hướng trên thiết bị di động hiển thị kết quả khác với điều hướng trên máy tính để bàn của bạn
Bất kỳ loại điều hướng nào mà các mục menu không có trong HTML, chẳng hạn như điều hướng hỗ trợ JavaScript. Google đã tiến bộ hơn nhiều trong việc thu thập thông tin và hiểu Javascript, nhưng đó vẫn chưa phải là một quá trình hoàn hảo. Cách chắc chắn hơn để đảm bảo một thứ gì đó được Google tìm thấy, hiểu và lập chỉ mục là đưa nó vào HTML.
Cá nhân hóa hoặc hiển thị điều hướng duy nhất cho một loại khách truy cập cụ thể so với những người khác, dường như đang che giấu trình thu thập thông tin của công cụ tìm kiếm
Quên liên kết đến một trang chính trên trang web của bạn thông qua điều hướng của bạn - hãy nhớ rằng, liên kết là đường dẫn mà trình thu thập thông tin theo đến các trang mới!
Đây là lý do tại sao điều cần thiết là trang web của bạn phải có điều hướng rõ ràng và cấu trúc thư mục URL hữu ích.
Bạn có kiến trúc thông tin sạch không?
Kiến trúc thông tin là thực hành tổ chức và gắn nhãn nội dung trên một trang web để nâng cao hiệu quả và khả năng tìm kiếm cho người dùng. Kiến trúc thông tin tốt nhất là trực quan, có nghĩa là người dùng không cần phải suy nghĩ nhiều để lướt qua trang web của bạn hoặc để tìm thứ gì đó.
Bạn có đang sử dụng sơ đồ trang web không?
Sơ đồ trang web giống như tên gọi: một danh sách các URL trên trang web của bạn mà trình thu thập thông tin có thể sử dụng để khám phá và lập chỉ mục nội dung của bạn. Một trong những cách dễ nhất để đảm bảo Google đang tìm thấy các trang có mức độ ưu tiên cao nhất của bạn là tạo tệp đáp ứng các tiêu chuẩn của Google và gửi tệp đó qua Google Search Console. Mặc dù việc gửi sơ đồ trang web không thay thế nhu cầu điều hướng trang web tốt, nhưng nó chắc chắn có thể giúp trình thu thập thông tin theo đường dẫn đến tất cả các trang quan trọng của bạn.
Đảm bảo rằng bạn chỉ bao gồm các URL mà bạn muốn các công cụ tìm kiếm lập chỉ mục và đảm bảo cung cấp cho trình thu thập thông tin chỉ dẫn nhất quán. Ví dụ: không bao gồm một URL trong sơ đồ trang web của bạn nếu bạn đã chặn URL đó qua robots.txt hoặc bao gồm các URL trong sơ đồ trang web của bạn trùng lặp thay vì phiên bản chuẩn, ưa thích
Comments
Post a Comment