Google ra mắt Veo 3: AI tạo video kèm âm thanh sống động

29/05/2025, 10:23

Mô hình AI tạo video mới nhất của Google, Veo 3, với khả năng tự tạo ra âm thanh chân thật khớp với từng chuyển động mà nó tạo ra.

Ảnh minh hoạ.

Tại Hội nghị các nhà phát triển Google I/O 2025 diễn ra hôm thứ Ba (ngày 20/5), Google chính thức giới thiệu Veo 3 - phiên bản mới nhất của mô hình AI tạo video, với khả năng đặc biệt: tạo luôn cả âm thanh đi kèm cho video.

Theo Google, Veo 3 không chỉ tạo được các hiệu ứng âm thanh, tiếng nền mà còn có thể dựng lời thoại để lồng vào video. Thông qua Veo 3, hãng cũng đã cho thấy bước cải tiến rất lớn về chất lượng cảnh quay so với phiên bản Veo 2 trước đó.

Hiện Veo 3 đang có sẵn trên chatbot Gemini, danh cho những người đăng ký gói AI Ultra với giá 249,99 USD/tháng. Người dùng có thể nhập lệnh bằng văn bản hoặc hình ảnh để tạo video theo ý tưởng của mình.

“Lần đầu tiên, chúng ta đang bước ra khỏi kỷ nguyên không có tiếng của việc tạo video,” ông Demis Hassabis, CEO của Google DeepMind phát biểu. “Bạn có thể mô tả nhân vật, bối cảnh và cả lời thoại với cách thể hiện mà bạn mong muốn, Veo 3 sẽ lo phần còn lại.”

Google giới thiệu Veo 3 với tính năng tạo âm thanh đi kèm video.png

Google giới thiệu Veo 3 với tính năng tạo âm thanh đi kèm video. Nguồn: Tài khoản X của Google Deepmind

Tính khả dụng rộng rãi của các công cụ để xây dựng trình tạo video đã dẫn đến sự bùng nổ của các nhà cung cấp đến mức lĩnh vực này đang dần trở nên bão hòa. Các công ty khởi nghiệp bao gồm Runway, Lightricks, Genmo, Pika, Higgsfield, Kling và Luma, cũng như các gã khổng lồ công nghệ như OpenAI và Alibaba, đều đang chạy đua phát triển công nghệ tạo video bằng AI. Tuy nhiên, đa phần các sản phẩm này có các tính năng khá giống nhau.

Trong bối cảnh đó, khả năng tạo và đồng bộ âm thanh với video chính là “vũ khí” khác biệt của Veo 3. Dù các công cụ tạo âm thanh bằng AI không còn mới, Veo 3 đặc biệt ở chỗ hiểu được nội dung hình ảnh thô trong video và tự động đồng bộ âm thanh một cách chính xác với từng cảnh quay.

Khả năng này của Veo 3 có được nhờ vào nền tảng nghiên cứu trước đó của DeepMind trong mảng AI “video-to-audio”. Vào tháng 6 năm ngoái, DeepMind từng công bố một dự án huấn luyện mô hình AI tạo nhạc nền cho video bằng cách kết hợp dữ liệu âm thanh, lời thoại và hình ảnh.

DeepMind không công bố cụ thể nguồn dữ liệu dùng để huấn luyện Veo 3 nhưng YouTube được xem là một khả năng lớn. Youtube thuộc sở hữu của Google và họ cũng từng tiết lộ rằng những mô hình như Veo “có thể” được huấn luyện từ nội dung trên nền tảng này.

Để chống lạm dụng công nghệ này cho mục đích giả mạo (deepfake), DeepMind cho biết họ đã tích hợp công nghệ đánh dấu bản quyền SynthID, gắn watermark vô hình vào từng khung hình do Veo 3 tạo ra.

Công nghệ SynthID giúp phát hiện những nội dung tạo bằng AI.jpg

Mặc dù Google giới thiệu Veo 3 như một công cụ hỗ trợ sáng tạo mạnh mẽ, nhiều nghệ sĩ vẫn không khỏi lo lắng trước nguy cơ làm đảo lộn toàn bộ ngành công nghiệp hình ảnh của chúng. Một nghiên cứu năm 2024 do Animation Guild (Liên đoàn đại diện cho các họa sĩ hoạt hình và truyện tranh Hollywood) ủy thác đã chỉ ra rằng: hơn 100.000 việc làm trong ngành phim ảnh, truyền hình và hoạt hình tại Mỹ có nguy cơ bị AI thay thế từ nay đến năm 2026.

Cũng trong sự kiện này, Google công bố một số tính năng mới cho Veo 2, bao gồm khả năng cho phép người dùng nhập hình ảnh về nhân vật, bối cảnh, vật thể hoặc phong cách để đảm bảo tính nhất quán trong video. Veo 2 phiên bản mới cũng đã hiểu được các chuyển động máy quay như xoay, trượt, phóng to, thu nhỏ, và có thể xóa hoặc thêm vật thể vào video, cũng như mở rộng khung hình (chẳng hạn chuyển video dọc sang ngang). Các tính năng mới này sẽ được tích hợp vào nền tảng API Vertex AI trong vài tuần tới.