Veo: Google ra AI tạo video, cạnh tranh OpenAI Sora

Công cụ tạo video bằng AI của Google – Google đã hợp tác với Donald Glover để ra mắt công cụ tạo video bằng AI có tên VEO. Giống như SORA của OpenAI, VEO đang là tâm điểm chú ý. Cũng giống như SORA, VEO có thể kéo dài các cảnh quay lên đến 60 giây. Hiện tại, công cụ gần nhất mà chúng ta có thể sử dụng là Runway, chỉ cho phép kéo dài clip lên đến 18 giây.

Veo là mô hình tạo video tiên tiến nhất của chúng tôi cho đến hiện tại. Nó có thể tạo ra các video chất lượng cao, độ phân giải 1080p kéo dài hơn một phút, với nhiều phong cách điện ảnh và hình ảnh phong phú.

Veo hiểu chính xác các sắc thái và giọng điệu trong yêu cầu, đồng thời cung cấp khả năng kiểm soát sáng tạo chưa từng có – hiểu các yêu cầu cho tất cả các loại hiệu ứng điện ảnh, chẳng hạn như tua nhanh thời gian hoặc cảnh quay trên không của một địa hình.

Mô hình tạo video của chúng tôi sẽ giúp tạo ra các công cụ giúp việc sản xuất video dễ dàng tiếp cận với mọi người. Cho dù bạn là nhà làm phim dày dặn kinh nghiệm, người sáng tạo đầy tham vọng hay nhà giáo dục muốn chia sẻ kiến thức, Veo mở ra những khả năng mới cho việc kể chuyện, giáo dục và hơn thế nữa.

Trong những tuần tới, một số tính năng này sẽ có sẵn cho một số nhà sáng tạo được chọn thông qua VideoFX, một công cụ thử nghiệm mới tại labs.google. Bạn có thể tham gia danh sách chờ ngay bây giờ.

Trong tương lai, chúng tôi cũng sẽ đưa một số khả năng của Veo vào YouTube Shorts và các sản phẩm khác.

Prompt: A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors

Prompt: A fast-tracking shot down an suburban residential street lined with trees. Daytime with a clear blue sky. Saturated colors, high contrast

Prompt: Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours

Hiểu sâu hơn về ngôn ngữ và hình ảnh

Để tạo ra một cảnh quay liền mạch, các mô hình tạo video cần giải thích chính xác yêu cầu dạng văn bản và kết hợp thông tin này với các tài liệu tham khảo hình ảnh liên quan.

Với khả năng hiểu ngôn ngữ tự nhiên và ý nghĩa hình ảnh tiên tiến, Veo tạo ra video bám sát chặt chẽ yêu cầu. Nó nắm bắt chính xác sắc thái và giọng điệu trong một cụm từ, thể hiện các chi tiết phức tạp trong các cảnh quay phức hợp.

Có thể bạn thích:  Financial Times ký hợp đồng nội dung với OpenAI

Prompt: Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean

Điều khiển cho việc làm phim

Khi được cung cấp cả video đầu vào và lệnh chỉnh sửa, chẳng hạn như thêm thuyền kayak vào cảnh quay trên không của một đường bờ biển, Veo có thể áp dụng lệnh này vào video ban đầu và tạo ra một video mới đã được chỉnh sửa.

Prompt: Drone shot along the Hawaii jungle coastline, sunny day

Drone shot along the Hawaii jungle coastline, sunny day. Kayaks in the water

Bên cạnh đó, Veo còn hỗ trợ chỉnh sửa theo vùng, cho phép thay đổi các khu vực cụ thể trong video khi bạn thêm vùng mặt nạ vào video và lời nhắc văn bản.

Veo cũng có thể tạo video với ảnh làm đầu vào cùng với lời nhắc văn bản. Bằng cách cung cấp hình ảnh tham khảo kết hợp với lời nhắc văn bản, bạn sẽ định hướng Veo tạo video theo phong cách của hình ảnh và hướng dẫn trong lời nhắc của người dùng.

Prompt: Alpacas wearing knit wool sweaters, graffiti background, sunglasses

Prompt: Alpacas dancing to the beat

Ngoài ra, mô hình này còn có khả năng tạo các đoạn clip video và kéo dài chúng lên đến 60 giây hoặc hơn. Nó có thể thực hiện điều này từ một lời nhắc duy nhất hoặc bằng cách cung cấp một chuỗi các lời nhắc, cùng nhau kể một câu chuyện.

Prompts:
A fast-tracking shot through a bustling dystopian sprawl with bright neon signs, flying cars and mist, night, lens flare, volumetric lighting.
A fast-tracking shot through a futuristic dystopian sprawl with bright neon signs, starships in the sky, night, volumetric lighting.
A neon hologram of a car driving at top speed, speed of light, cinematic, incredible details, volumetric lighting.
The cars leave the tunnel, back into the real world city Hong Kong.

Yêu cầu mẫu:

  • Cảnh quay di chuyển nhanh qua một khu đô thị tồi tàn nhộn nhịp với biển hiệu neon sáng chói, xe bay và sương mù, ban đêm, lóa ống kính, ánh sáng thể tích.
  • Cảnh quay di chuyển nhanh qua một khu đô thị tồi tàn tương lai với biển hiệu neon sáng chói, phi thuyền trên bầu trời, ban đêm, ánh sáng thể tích.
  • Một hình ảnh ba chiều neon của một chiếc xe đang chạy với tốc độ tối đa, tốc độ ánh sáng, điện ảnh, chi tiết đáng kinh ngạc, ánh sáng thể tích.
  • Những chiếc xe rời khỏi đường hầm, quay trở lại thành phố Hồng Kông thực tế.

Giữ tính nhất quán giữa các khung hình trong video

Duy trì tính nhất quán về mặt hình ảnh có thể là một thách thức đối với các mô hình tạo video. Nhân vật, vật thể hoặc thậm chí toàn bộ cảnh quay có thể nhấp nháy, nhảy hoặc biến đổi bất ngờ giữa các khung hình, gây gián đoạn trải nghiệm xem.

Có thể bạn thích:  Công cụ AI đột phá của Asana: AI teammates

Bộ biến đổi khuếch tán tiềm ẩn tiên tiến của Veo giúp giảm thiểu sự xuất hiện của những điểm không nhất quán này, giữ nguyên vị trí của các nhân vật, vật thể và phong cách, giống như ngoài đời thực.

Prompt: A panning shot of a serene mountain landscape, the camera slowly revealing snow-capped peaks, granite rocks and a crystal-clear lake reflecting the sky

Dựa trên nhiều năm nghiên cứu về tạo video

Veo được xây dựng dựa trên nhiều năm nghiên cứu về mô hình tạo video, bao gồm Mạng truy vấn tạo (Generative Query Network – GQN), Mạng GAN video đa dạng (DVD-GAN), Imagen-Video, Phenaki, WALT, VideoPoet và Lumiere, cùng với kiến trúc Transformer và Gemini của chúng tôi.

Để giúp Veo hiểu và tuân theo các yêu cầu chính xác hơn, chúng tôi cũng đã thêm nhiều chi tiết hơn vào chú thích của từng video trong dữ liệu huấn luyện. Và để cải thiện hơn nữa hiệu suất, mô hình sử dụng các biểu diễn video chất lượng cao, được nén (hay còn gọi là latent) giúp nó hoạt động hiệu quả hơn. Những bước này cải thiện chất lượng tổng thể và giảm thời gian tạo video.

Được thiết kế có trách nhiệm

Việc đưa các công nghệ như Veo đến thế giới một cách có trách nhiệm là điều rất quan trọng. Video được tạo bởi Veo được đánh dấu bằng công cụ SynthID tiên tiến của chúng tôi, dùng để đánh dấu và xác định nội dung do AI tạo, đồng thời được lọc qua các bộ lọc bảo mật và quy trình kiểm tra ghi nhớ để giúp giảm thiểu rủi ro về quyền riêng tư, bản quyền và thiên vị.

Tương lai của Veo sẽ được định hình bởi sự hợp tác của chúng tôi với các nhà sáng tạo và nhà làm phim hàng đầu. Phản hồi của họ giúp chúng tôi cải thiện công nghệ tạo video và đảm bảo chúng mang lại lợi ích cho cộng đồng sáng tạo rộng lớn hơn và xa hơn nữa.

Preview về dự án hợp tác của chúng tôi với nhà làm phim Donald Glover và studio sáng tạo của anh ấy, Gilga.

Lưu ý: Tất cả video trên trang này đều được tạo bởi Veo và không được chỉnh sửa.

Nội dung bài viết này được dịch từ trang web: https://deepmind.google/technologies/veo/

Vũ Thanh Mai

Change the world by being yourself

Similar Posts

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *