Google SpamBrain 2023: Google cập nhật thuật toán chống Spam
Trong một báo cáo mới được công bố, Google đã chia sẻ về thuật toán chống Spam của mình trong 2023, đồng thời nêu bật cách hệ thống máy học của SpamBrain đã phát triển theo thời gian.
Báo cáo chống spam hàng năm của Google là báo cáo nêu bật tất cả các cách mà hệ thống chống nội dung rác của Google là SpamBrain hoạt động.
SpamBrain của Google là gì?
SpamBrain là tên mà Google đặt cho hệ thống máy học (machine learning) của Google chuyên được sử dụng để phát hiện các nội dung không mong muốn (nội dung rác) thông qua nhiều thuật toán xử lý khác nhau.
Công nghệ máy học hay học máy là một dạng trí tuệ nhân tạo (AI) sử dụng dữ liệu (Data) để liên tục học hỏi, thứ có thể giúp nó ngày càng thành trở nên thành thạo hơn với các nhiệm vụ mà nó được thiết kế (được đào tạo).
SpamBrain còn được xem là trung tâm của các sáng kiến mới với mục tiêu ngăn chặn nội dung rác trên công cụ tìm kiếm.
Google cập nhật các cải tiến mới đối với SpamBrain.
Theo thông tin từ Google, hệ thống phát hiện tin rác của SpamBrain đã phát hiện ra các website có chứa nội dung rác cao hơn 500% so với năm trước.
Nhiều thuật toán đào tạo bổ sung đã giúp tăng đến 10 lần khả năng của SpamBrain trong việc xác định các website gian lận.
Phát hiện các liên kết Spam (Link Spam).
Báo cáo cũng lưu ý rằng, nhờ vào khả năng học hỏi của SpamBrain, hệ thống đã phát hiện ra các website có chứa các liên kết rác nhiều hơn gấp 50 lần so với năm trước.
“Nhờ khả năng học hỏi liên tục của SpamBrain, chúng tôi đã phát hiện các trang web có liên kết rác nhiều hơn 50 lần so với bản cập nhật liên kết rác trước đó.”
SpamBrain có khả năng phát hiện tin rác tại thời điểm thu thập dữ liệu (Indexing).
Một sự thật thú vị về thuật toán chống Spam của Google, SpamBrain, là cách hệ thống xác định nội dung rác tại thời điểm thu thập dữ liệu.
Nếu một Trang (webpage) được thu thập dữ liệu bị phát hiện là spam, trang đó sẽ bị chặn ngay lập tức khỏi công cụ tìm kiếm, ngăn không cho trang đó được xếp hạng trên trang kết quả tìm kiếm (SERPs).
Theo Google:
“…chúng tôi có các hệ thống có thể phát hiện nội dung rác khi chúng tôi thu thập dữ liệu các trang hoặc nội dung (Content) khác.
Hệ thống sẽ tự động truy cập nội dung và đánh giá xem liệu nội dung đó có đủ điều kiện để xuất hiện trên trang tìm kiếm hay không. Một số nội dung bị phát hiện là spam sẽ không được thêm vào chỉ mục.
Các hệ thống này cũng hoạt động đối với các nội dung mà chúng tôi khám phá được thông qua sơ đồ trang web (sitemap) và Google Search Console.
Bằng cách sử dụng AI, chúng tôi có thể xác định chính xác các dấu hiệu đáng ngờ và ngăn các URL spam xâm nhập vào hệ thống tìm kiếm.”
Hệ thống bảo vệ đa ngôn ngữ.
Một điều mới mẻ đối với SpamBrain của Google là hệ thống nhận diện lừa đảo (Scam) đa ngôn ngữ, điều này có thể giúp giảm đến 50% số lần nhấp vào các website lừa đảo so với năm trước.
Ở khía cạnh nội dung Spam (Spam Content), Google cho biết hệ thống hiện đang tập trung vào việc phát hiện các liên kết spam, xác định các website rác và khả năng phát hiện nội dung spam ngay khi thu thập dữ liệu.
Tham gia Cộng đồng We’re Marketer của MarketingTrips để thảo luận các chủ đề về Marketing và Business tại: We’re Marketer
Nam Nguyen | MarketingTrips