Skip to main content

Thẻ: sora

AI tạo video từ văn bản Sora của OpenAI sẽ được thương mại hóa trong vài tháng tới

OpenAI cho biết Sora AI, công cụ tạo video từ văn bản, sẽ được thương mại hóa trong vài tháng tới với chi phí tương tự Dall-E.

AI tạo video từ văn bản Sora của OpenAI sẽ được thương mại hóa trong vài tháng tới
AI tạo video từ văn bản Sora của OpenAI sẽ được thương mại hóa trong vài tháng tới

Trả lời WSJ, Giám đốc công nghệ OpenAI Mira Murati cho biết Sora sẽ được phát hành ra công chúng trong năm nay, “có thể là vài tháng nữa”. Công cụ được giới thiệu vào tháng 2 và nhanh chóng tạo cơn sốt trên các nền tảng mạng xã hội dù mới chỉ cung cấp thử nghiệm cho một số nghệ sĩ, nhà thiết kế và nhà làm phim.

OpenAI cũng đang có kế hoạch kết hợp khả năng tạo âm thanh giúp video chân thực hơn từ Sora. Người dùng cũng có thể chỉnh sửa video do Sora sản xuất vì không phải lúc nào AI cũng đưa ra hình ảnh chính xác.

“Chúng tôi đang cố gắng tìm cách biến công nghệ này thành một công cụ mà mọi người có thể chỉnh sửa và sáng tạo“, bà Mira Murati nói.

Tuy nhiên, theo The Verge, khi được hỏi về dữ liệu OpenAI sử dụng để đào tạo Sora, Murati né tránh trả lời. “Tôi sẽ không đi sâu vào chi tiết dữ liệu đã được sử dụng, nhưng đó là dữ liệu được cấp phép hoặc có sẵn công khai”, CTO OpenAI nói và cho biết không thể tiết lộ Sora có dùng video từ YouTube, Facebook hay Instagram không. Bà chỉ xác nhận AI có sử dụng nội dung từ Shutterstock – công ty OpenAI có quan hệ đối tác.

Murati khẳng định sức mạnh của Sora “đắt đỏ hơn nhiều” so với các công cụ AI hiện tại, nhưng công ty sẽ cố gắng cung cấp với “chi phí tương tự” Dall-E, AI chuyển văn bản thành ảnh.

OpenAI cho biết đang nỗ lực xây dựng công cụ có thể phát hiện video tạo bằng Sora AI. Công ty cũng sẽ gắn nhãn video AI, đồng thời hợp tác với các chuyên gia để đánh giá khả năng Sora có thể tạo thông tin sai lệch, thù địch và thành kiến.

Khi mở rộng cho toàn bộ người dùng phổ thông, Murati cho biết công ty sẽ hạn chế Sora tạo hình ảnh liên quan đến người nổi tiếng, tương tự chính sách đối với Dall-E. Video cũng sẽ có hình mờ để phân biệt với video thật. Tuy nhiên, một số trang công nghệ như The Verge cho rằng đây không phải giải pháp hoàn hảo để phân biệt sản phẩm AI.

Special Offer từ MarketingTrips:

  • Tham khảo giải pháp Agency Listing từ MarketingTrips: Agency Networks
  • Đăng bài không giới hạn trên MarketingTrips với chi phí chỉ bằng 1 bài đăng (Booking): Content Partner
  • Đăng ký (dành cho Agency): Sign up

Tham gia Cộng đồng We’re Marketer của MarketingTrips (Trang tin tức trực tuyến về Marketing, Digital Marketing, Thương hiệu, Quảng cáo và Kinh doanh) để thảo luận các chủ đề về Marketing và Business tại: We’re Marketer

Một số mô hình AI tạo video từ văn bản cho Marketer

Bên cạnh Sora của OpenAI đang gây sốt toàn cầu, nhiều mô hình AI tạo video từ văn bản khác cũng được đánh giá cao như Lumier, VideoPoet, Emu Video.

Một số mô hình AI tạo video từ văn bản cho Marketer
Một số mô hình AI tạo video từ văn bản cho Marketer

Không lâu sau khi Dall-E tạo cơn sốt sử dụng trí tuệ nhân tạo (AI) để “vẽ ảnh” từ văn bản, nhiều công ty khác nhanh chóng khởi động những mô hình AI có khả năng dựng video từ các câu lệnh do người dùng nhập vào.

Sau hai năm, lĩnh vực này đã phát triển vượt bậc với sự xuất hiện của những mô hình tạo video được giới chuyên gia đánh giá đem đến chất lượng siêu thực.

Dù vẫn còn một số điểm chưa hoàn hảo, nhiều công cụ AI vẫn cho thấy khả năng kiểm soát ấn tượng và tạo được những đoạn video đa dạng phong cách.

Sora

Sora là sản phẩm mới ra mắt cách đây ít ngày của OpenAI – công ty tạo ra ChatGPT. Với sự nổi tiếng của công ty mẹ cùng khả năng “thấu hiểu sâu sắc ngôn ngữ” của mô hình, nhiều người dùng tỏ ra phấn khích với Sora. Các clip minh họa cho thấy mô hình AI này có thể tạo ra “những nhân vật có khả năng thể hiện cảm xúc sinh động”, theo Analyticsindiamag.

Độ chân thực của các sản phẩm từ Sora cũng là chủ đề bàn luận chính trên nhiều hội nhóm mạng xã hội. Một số người cho rằng công cụ của AI thực sự là kẻ thay đổi cuộc chơi trên trên thị trường.

Tuy nhiên, trước khi đưa Sora tới công chúng, OpenAI vẫn phải tiến hành nhiều biện pháp cẩn trọng nhằm đảm bảo sự an toàn. Nhà phát triển cũng thừa nhận Sora vẫn còn một số vấn đề, như giữ cho hình ảnh chuyển động mượt mà hay phân biệt bên trái/phải.

Lumier

Google gọi AI sản xuất video của mình là Lumiere, dựa trên mô hình khuếch tán (diffusion model) có tên Sapce-Time-U-Net (STUNet). Theo Ars Technica, Lumiere tìm cách ghép các khung hình tĩnh vào nhau, thay vào đó, AI này tìm ra những chi tiết trong video (không gian) và theo dõi cách chúng chuyển động và thay đổi cùng lúc (thời gian). Điều này giúp quá trình vận hành suôn sẻ.

Hiện Lumiere chưa sẵn sàng để đưa ra công chúng nhưng Google có đủ khả năng phát triển những mô hình AI vượt trội hơn các công cụ hiện tại như Runway hay Pika. Trên thực tế, chỉ trong hai năm, hãng đã tạo ra bước nhảy vọt về công nghệ trong lĩnh vực video game có AI.

VideoPoet

VideoPoet là mô hình ngôn ngữ lớn (LLM) được đào tạo từ kho video, ảnh, âm thanh và văn bản khổng lồ. Công cụ này có thể thực hiện rất nhiều nhiệm vụ tạo video khác nhau từ nguồn vào là văn bản, ảnh, video, làm nổi bật video theo phong cách, nội dung… hay chuyển video thành âm thanh.

Công cụ này xây dựng từ một ý tưởng rất đơn giản: chuyển bất cứ mô hình ngôn ngữ tự hồi quy nào được nhập vào sang một hệ thống tạo video. Hiện nay, các mô hình ngôn ngữ tự hồi quy có thể xử lý văn bản và mã hoàn toàn tự nhiên, nhưng lại gặp phải rào cản khi chuyển sang video. Để giải quyết vấn đề này, VideoPoet sử dụng mã thông báo có thể chuyển video, ảnh, âm thanh… thành ngôn ngữ nó có thể hiểu được.

Emu Video

Một công ty công nghệ lớn khác là Meta cũng có mô hình AI làm video riêng mang tên Emu Video. Công cụ này hoạt động theo hai bước: đầu tiên sẽ chuyển hình ảnh thành văn bản, sau đó sử dụng văn bản và hình ảnh để tạo ra video.

Các đánh giá viên tham gia vào chương trình này cho biết 81% trong số họ thích Emu Video hơn Imagen Video của Google, 90% chọn công cụ này so với PYOCO (Nvidia) và có tới 96% nhận định tốt hơn Make-A-Video của chính Meta.

Thêm vào đó, mô hình Emu Video cũng “đánh bại” các lựa chọn khác như RunwayML của Gen2 và Pika Labs, theo Analyticsindiamag.

Phenaki

Đội ngũ phát triển Phenaki Video sử dụng Mask GIT để sản xuất video từ văn bản trong PyTorch – khuôn khổ máy học dựa trên thư viện Torch, được sử dụng trong lĩnh vực thị giác máy tính và xử lý ngôn ngữ tự nhiên do Meta AI phát triển. Mô hình này sử dụng văn bản để tạo ra video có độ dài tối đa hai phút.

Mô hình này được đánh giá linh hoạt và khả dụng cho các nhà phát triển để huấn luyện AI chuyển văn bản thành ảnh hoặc video. Họ có thể bắt đầu bằng các hình ảnh rồi từ đó tinh chỉnh thành video mà không gặp trở ngại nào trong quá trình đào tạo.

CogVideo

Một nhóm nhà nghiên cứu từ đại học Thanh Hoa (Bắc Kinh, Trung Quốc) đã phát triển CogVideo, mô hình AI tạo sinh chuyển văn bản thành video được đào tạo trước trên quy mô lớn. Họ xây dựng CogVideo từ một mô hình chuyển văn bản thành hình ảnh được huấn luyện trước có tên CogView2 để khám phá những kiến thức mà công cụ này đã học được.

Nghệ sĩ Glenn Marshall trong lần thử nghiệm mô hình này đã ấn tượng tới mức phải thốt lên rằng giới đạo diễn có thể mất việc. Đoạn video The Crow do ông tạo bằng CogVideo cũng được đánh giá rất cao, thậm chí còn được tham dự giải thưởng Điện ảnh Viện Hàn lâm Anh (BAFTA).

Special Offer từ MarketingTrips:

  • Tham khảo giải pháp Agency Listing từ MarketingTrips: Agency Networks
  • Đăng bài không giới hạn trên MarketingTrips với chi phí chỉ bằng 1 bài đăng (Booking): Content Partner
  • Đăng ký (dành cho Agency): Sign up

Tham gia Cộng đồng We’re Marketer của MarketingTrips (Trang tin tức trực tuyến về Marketing, Digital Marketing, Thương hiệu, Quảng cáo và Kinh doanh) để thảo luận các chủ đề về Marketing và Business tại: We’re Marketer

Theo VnExpress

OpenAI ra mắt Sora, AI có khả năng chuyển từ văn bản sang video

Sora là mô hình AI tổng quát mới của OpenAI, hoạt động tương tự công cụ tạo ảnh Dall-E cùng nhà. Người dùng chỉ cần đưa ra prompt nội dung video và Sora sẽ trả về video clip chất lượng cao. Ngoài ra, nó còn có thể tạo ra video từ hình ảnh tĩnh, kéo dài video hoặc lấp đầy khung hình trống.

Video có thể là vùng đất tiếp theo đối với AI tổng quát khi các chatbot và trình tạo hình ảnh đã xâm nhập vào thế giới thực. Dù được giới mộ điệu AI chào đón, các công nghệ mới cũng gây lo ngại nghiêm trọng về thông tin sai lệch khi các cuộc bầu cử chính trị lớn trên toàn cầu đang đến gần.

Theo dữ liệu từ công ty máy học Clarity, số lượng deepfake do AI tạo ra đã tăng 900% so với năm trước.

Với Sora, OpenAI đang tìm cách cạnh tranh với các công cụ AI tạo video từ các đối thủ như Meta, Google, hay một số startup như Stability AI. Amazon cũng đã phát hành Create with Alexa, mô hình chuyên tạo nội dung hoạt hình dạng ngắn dành cho trẻ em dựa trên prompt.

Sora hiện chỉ có thể tạo các video dài một phút trở xuống. Cũng mới có một nhóm nhỏ – hay “đội đỏ” – được dùng mô hình để tìm kiếm các lỗ hổng bảo mật. OpenAI chưa phát hành bất kỳ bản demo công khai nào ngoài 10 clip mẫu có sẵn trên trang web.

OpenAI cũng đang xây dựng một bộ phân loại có thể xác định các video clip là sản phẩm của Sora và dự định đưa một số siêu dữ liệu nhất định vào đầu ra để giúp xác định nội dung do AI tạo ra. Nỗ lực này tương tự những gì Meta đang làm để xác định các hình ảnh do AI tạo ra.

Sora, giống như ChatGPT, sử dụng kiến ​​trúc Transformer được các nhà nghiên cứu của Google giới thiệu trong một bài báo năm 2017.

Bạn có thể xem thêm về mô hình AI mới của OpenAI Sora tại đây: Sora AI.

Special Offer từ MarketingTrips:

  • Tham khảo giải pháp Agency Listing từ MarketingTrips: Agency Networks
  • Đăng bài không giới hạn trên MarketingTrips với chi phí chỉ bằng 1 bài đăng (Booking): Content Partner
  • Đăng ký (dành cho Agency): Sign up

Tham gia Cộng đồng We’re Marketer của MarketingTrips (Trang tin tức trực tuyến về Marketing, Digital Marketing, Thương hiệu, Quảng cáo và Kinh doanh) để thảo luận các chủ đề về Marketing và Business tại: We’re Marketer