Microsoft ra mắt VASA-1: Công cụ AI mới cho phép ảnh chân dung có thể nói và hát với biểu cảm tự nhiên

23 Tháng Tư, 2024

Microsoft vừa ra mắt VASA-1, công cụ AI mới cho phép ảnh chân dung có thể nói, hát với biểu cảm tự nhiên.

Theo Microsoft, không chỉ tạo cử động môi “đồng bộ một cách tinh tế” kèm âm thanh, VASA-1 còn thể hiện thần thái nhân vật thông qua chuyển động khuôn mặt và đầu tự nhiên, từ đó tăng tính chân thực.

Hãng phần mềm Mỹ cho biết đây là “hệ thống động học cho khuôn mặt” được huấn luyện thông qua mô hình tạo chuyển động “tốt hơn một cách toàn diện so với các phương pháp trước đó”. AI này hỗ trợ xử lý ảnh chân dung với phần đầu và phần trên của thân, với các biểu cảm vui vẻ, tức giận, ngạc nhiên hoặc nghiêm nghị.

Trong video được Microsoft giới thiệu trên YouTube, AI của hãng có thể khiến các bức ảnh, tạo bởi Dall-E 3 và StyleGAN2, nói chuyện tự nhiên. Người dùng cũng có thể điều chỉnh thông số khuôn mặt, biểu cảm, giọng nói và nhiều chi tiết khác. Trang chuyên về hình ảnh PetaPixel đánh giá VASA-1 cho khả năng thể hiện tốt hơn so với các AI tương tự, khiến khó nhận biết nếu xem lần đầu.

Microsoft từ chối đề cập mô hình đứng sau, cũng như không có kế hoạch phát hành sản phẩm riêng, hay cung cấp API cho nhà phát triển. Họ giới thiệu VASA-1 “nhằm phô diễn một trong những khả năng của AI”.

“Nghiên cứu của chúng tôi tập trung vào phát triển cảm xúc trực quan cho ảnh đại diện AI, hướng tới ứng dụng tích cực”, Microsoft viết trên website công ty. “Nó không nhằm tạo nội dung gây hiểu lầm hoặc lừa dối. Tuy nhiên, giống như các mô hình AI khác, nó vẫn có thể bị lạm dụng để mạo danh con người. Chúng tôi phản đối bất kỳ hành vi nào như vậy”.

Bên cạnh làn sóng chatbot như ChatGPT hay Google Gemini, lĩnh vực AI cũng chứng kiến cuộc đua giữa các mô hình có khả năng tạo video như thật từ ảnh tĩnh. Tháng trước, Alibaba giới thiệu công cụ tương tự là EMO (Emotive Portrait Alive).

Nếu AI trước đó chỉ làm biến đổi miệng và một phần mặt, EMO có thể tạo nét mặt, tư thế, di chuyển phần lông mày, nhíu mắt hay thậm chí lắc lư theo điệu nhạc. Riêng phần miệng được AI thể hiện tự nhiên, đồng bộ môi chính xác.

Special Offer từ MarketingTrips:

Tham khảo giải pháp Agency Listing từ MarketingTrips: Agency Networks
Đăng bài không giới hạn trên MarketingTrips với chi phí chỉ bằng 1 bài đăng (Booking): Content Partner
Đăng ký (dành cho Agency): Sign up

Tham gia Cộng đồng We’re Marketer của MarketingTrips (Trang tin tức trực tuyến về Marketing, Digital Marketing, Thương hiệu, Quảng cáo và Kinh doanh) để thảo luận các chủ đề về Marketing và Business tại: We’re Marketer

Microsoft ra mắt VASA-1: Công cụ AI mới cho phép ảnh chân dung có thể nói và hát với biểu cảm tự nhiên

Bài viết liên quan

Amazon công bố khoản đầu tư hơn 10 tỷ USD vào Ấn Độ

Công ty sở hữu Claude AI đang chuẩn bị cho IPO với định giá gần 1000 tỷ USD

Sáu năm giữa bão crypto: Giải phẫu hành trình một sàn giao dịch từ startup đến hệ sinh thái đa tài sản

Google Chrome âm thầm tải xuống 4 GB dữ liệu mô hình AI trực tiếp về máy tính

Google vừa công bố tích hợp AI vào trình duyệt Chrome giúp tóm tắt nội dung và gửi email

Gmail cho phép thay đổi địa chỉ email (thay vì phải lập tài khoản mới)

Lý do OpenAI đóng cửa ứng dụng tạo video Sora từng gây sốt khi mới ra mắt

Apple kiếm gần 1 tỷ USD từ các ứng dụng AI trên App Store trong năm 2025

ZORA ra mắt “thị trường theo dõi” ATTENTION MARKETS để dự đoán xu hướng internet

OpenAI: Mô hình thu phí cố định của ChatGPT sắp thay đổi

Bitcoin đang chạy theo hướng tách khỏi thị trường truyền thống

Nghiên cứu: Quảng cáo TikTok thúc đẩy tích cực doanh thu phòng vé

Nổi bật

Top 10 thương hiệu giá trị nhất Việt Nam năm 2026 (tổng giá trị gần 25 tỷ USD)

Google bị châu Âu phạt gần 1 tỷ USD vì hành vi thiên vị trên Google Play và công cụ tìm kiếm

Ứng dụng nhắn tin (Messenger) của Facebook lại bị lỗi trên toàn cầu

Báo cáo từ Gallup: Người lao động Việt Nam ít stress nhất Đông Nam Á

Thêm một thương hiệu thời trang Việt Nam được nhà đầu tư ngoại rót vốn

Nhà sáng lập DeepSeek trở thành tỷ phú AI giàu nhất thế giới với 36 tỷ USD

Mô hình kinh doanh tỷ USD đứng sau đế chế gọi xe Grab

Every Half Coffee Roasters (Every Half) vừa công bố hoàn tất vòng gọi vốn Series A trị giá 8 triệu USD

Mới nhất

Top 10 thương hiệu giá trị nhất Việt Nam năm 2026 (tổng giá trị gần 25 tỷ USD)

Google bị châu Âu phạt gần 1 tỷ USD vì hành vi thiên vị trên Google Play và công cụ tìm kiếm

Ứng dụng nhắn tin (Messenger) của Facebook lại bị lỗi trên toàn cầu

Báo cáo từ Gallup: Người lao động Việt Nam ít stress nhất Đông Nam Á

Thêm một thương hiệu thời trang Việt Nam được nhà đầu tư ngoại rót vốn

Đọc nhiều

X là gì? Hướng dẫn sử dụng mạng xã hội X cho người mới

Shopee và Meta vừa chính thức công bố triển khai chương trình Tiếp thị liên kết (Affiliate Marketing) trên Instagram tại Việt Nam

Báo cáo thị trường thương mại điện tử Việt Nam năm 2025 – 2026

Social Media Marketing Benchmarks 2026: Tiêu chuẩn đánh giá hiệu quả Marketing cho Marketers

Các doanh nghiệp cần làm gì trong thời điểm vàng của thương mại điện tử