Google SpamBrain 2023: Google cập nhật thuật toán chống Spam

16 Tháng Tư, 2023

Trong một báo cáo mới được công bố, Google đã chia sẻ về thuật toán chống Spam của mình trong 2023, đồng thời nêu bật cách hệ thống máy học của SpamBrain đã phát triển theo thời gian.

Google SpamBrain 2023: Google cập nhật thuật toán chống Spam

Báo cáo chống spam hàng năm của Google là báo cáo nêu bật tất cả các cách mà hệ thống chống nội dung rác của Google là SpamBrain hoạt động.

SpamBrain của Google là gì?

SpamBrain là tên mà Google đặt cho hệ thống máy học (machine learning) của Google chuyên được sử dụng để phát hiện các nội dung không mong muốn (nội dung rác) thông qua nhiều thuật toán xử lý khác nhau.

Công nghệ máy học hay học máy là một dạng trí tuệ nhân tạo (AI) sử dụng dữ liệu (Data) để liên tục học hỏi, thứ có thể giúp nó ngày càng thành trở nên thành thạo hơn với các nhiệm vụ mà nó được thiết kế (được đào tạo).

SpamBrain còn được xem là trung tâm của các sáng kiến mới với mục tiêu ngăn chặn nội dung rác trên công cụ tìm kiếm.

Google cập nhật các cải tiến mới đối với SpamBrain.

Theo thông tin từ Google, hệ thống phát hiện tin rác của SpamBrain đã phát hiện ra các website có chứa nội dung rác cao hơn 500% so với năm trước.

Nhiều thuật toán đào tạo bổ sung đã giúp tăng đến 10 lần khả năng của SpamBrain trong việc xác định các website gian lận.

Phát hiện các liên kết Spam (Link Spam).

Báo cáo cũng lưu ý rằng, nhờ vào khả năng học hỏi của SpamBrain, hệ thống đã phát hiện ra các website có chứa các liên kết rác nhiều hơn gấp 50 lần so với năm trước.

“Nhờ khả năng học hỏi liên tục của SpamBrain, chúng tôi đã phát hiện các trang web có liên kết rác nhiều hơn 50 lần so với bản cập nhật liên kết rác trước đó.”

SpamBrain có khả năng phát hiện tin rác tại thời điểm thu thập dữ liệu (Indexing).

Một sự thật thú vị về thuật toán chống Spam của Google, SpamBrain, là cách hệ thống xác định nội dung rác tại thời điểm thu thập dữ liệu.

Nếu một Trang (webpage) được thu thập dữ liệu bị phát hiện là spam, trang đó sẽ bị chặn ngay lập tức khỏi công cụ tìm kiếm, ngăn không cho trang đó được xếp hạng trên trang kết quả tìm kiếm (SERPs).

Theo Google:

“…chúng tôi có các hệ thống có thể phát hiện nội dung rác khi chúng tôi thu thập dữ liệu các trang hoặc nội dung (Content) khác.

Hệ thống sẽ tự động truy cập nội dung và đánh giá xem liệu nội dung đó có đủ điều kiện để xuất hiện trên trang tìm kiếm hay không. Một số nội dung bị phát hiện là spam sẽ không được thêm vào chỉ mục.

Các hệ thống này cũng hoạt động đối với các nội dung mà chúng tôi khám phá được thông qua sơ đồ trang web (sitemap) và Google Search Console.

Bằng cách sử dụng AI, chúng tôi có thể xác định chính xác các dấu hiệu đáng ngờ và ngăn các URL spam xâm nhập vào hệ thống tìm kiếm.”

Hệ thống bảo vệ đa ngôn ngữ.

Một điều mới mẻ đối với SpamBrain của Google là hệ thống nhận diện lừa đảo (Scam) đa ngôn ngữ, điều này có thể giúp giảm đến 50% số lần nhấp vào các website lừa đảo so với năm trước.

Ở khía cạnh nội dung Spam (Spam Content), Google cho biết hệ thống hiện đang tập trung vào việc phát hiện các liên kết spam, xác định các website rác và khả năng phát hiện nội dung spam ngay khi thu thập dữ liệu.

Tham gia Cộng đồng We’re Marketer của MarketingTrips để thảo luận các chủ đề về Marketing và Business tại: We’re Marketer

Nam Nguyen | MarketingTrips

Google SpamBrain 2023: Google cập nhật thuật toán chống Spam

SpamBrain của Google là gì?

Google cập nhật các cải tiến mới đối với SpamBrain.

Phát hiện các liên kết Spam (Link Spam).

SpamBrain có khả năng phát hiện tin rác tại thời điểm thu thập dữ liệu (Indexing).

Hệ thống bảo vệ đa ngôn ngữ.

Bài viết liên quan

Google công bố thuật toán mới sử dụng AI trên công cụ tìm kiếm (có thể làm thay đổi ngành SEO)

Trình duyệt web của Google đang bị vây quanh bởi hàng loạt đối thủ mới gia nhập nhờ AI

Đây là lý do mô hình AI mới nhất của Google đang đe doạ ChatGPT

Adobe mua lại Semrush (công cụ SEO và Marketing) với giá gần 2 tỷ USD

Google được phép trả tiền để trở thành công cụ tìm kiếm mặc định trên Apple

Google bị yêu cầu thay đổi cách xếp hạng kết quả tìm kiếm và mở quyền truy cập dành cho đối thủ

Khả năng kéo traffic cho website từ Google Search đang giảm dần vì AI

Yahoo muốn mua lại trình duyệt Chrome của Google (dù giá có thể lên tới 50 tỷ USD)

ChatGPT và Google đang có vị trí ra sao trong cuộc đua về AI

Xu hướng Google Ads 2025: Phó Chủ tịch Google Ads nói gì về định hướng trong năm mới

Xu hướng tìm kiếm đáng lo ngại cho Google (và người làm SEO)

Thuật toán lõi tháng 3 năm 2025 của Google sắp được áp dụng

Nổi bật

Công ty đa cấp lớn nhất Việt Nam Herbalife đang kinh doanh như thế nào

YouTube sẽ tự động gắn nhãn AI cho các nội dung AI (ngay cả khi nhà sáng tạo không chủ động khai báo)

Chuỗi nhà thuốc Pharmacity vừa huy động thêm vốn tăng trưởng từ quỹ ngoại

M Village của nhà sáng lập The Coffee House sẽ đổi tên thành tập đoàn Modern Village Lifestyle

Metric: Người Việt chi hơn 1.600 tỷ mua sản phẩm này trong 4 tháng đầu năm 2026

Malaysia trở thành quốc gia thứ 2 tại Đông Nam Á ban hành quy định cấm trẻ em sử dụng mạng xã hội

Shein mua lại Everlane với giá 100 triệu USD

Uber muốn mua lại nền tảng giao đồ ăn Delivery Hero với giá gần 12 tỷ USD

Mới nhất

Công ty đa cấp lớn nhất Việt Nam Herbalife đang kinh doanh như thế nào

YouTube sẽ tự động gắn nhãn AI cho các nội dung AI (ngay cả khi nhà sáng tạo không chủ động khai báo)

Chuỗi nhà thuốc Pharmacity vừa huy động thêm vốn tăng trưởng từ quỹ ngoại

M Village của nhà sáng lập The Coffee House sẽ đổi tên thành tập đoàn Modern Village Lifestyle

Metric: Người Việt chi hơn 1.600 tỷ mua sản phẩm này trong 4 tháng đầu năm 2026

Đọc nhiều

X là gì? Hướng dẫn sử dụng mạng xã hội X cho người mới

Carlsberg Việt Nam bị phạt vì gây nhầm lẫn cho khách hàng về sản phẩm trên bao bì (Huda, Huda Gold và Halida)

Báo cáo thị trường thương mại điện tử Việt Nam năm 2025 – 2026

Chuỗi trà sữa tại Việt Nam được định giá tới 2 tỷ USD

Lý do đằng sau việc Facebook đang trả tiền cho các nhà sáng tạo dựa trên lượng tương tác tại Việt Nam