Stable Diffusion

AI tạo ảnh thế hệ mới Stable Diffusion 3 có gì đặc sắc?

Vào đầu tháng 2/2024, Stability AI đã chính thức ra mắt Stable Diffusion 3, một mô hình tổng hợp hình ảnh thế hệ mới. Đây là phiên bản tiếp theo của AI Stable Diffusion nổi tiếng toàn cầu, hứa hẹn mang đến cho người dùng những hình ảnh đa chủ thể với độ chi tiết cực cao và đạt được nhiều cải tiến đáng kể về chất lượng và độ chính xác trong việc chuyển đổi văn bản thành hình ảnh. Cùng Hieuai tìm hiểu chi tiết qua bài viết dưới đây!

Thông tin chung về Stable Diffusion 3

Theo Stability AI, cha đẻ của mô hình Stable Diffusion, Stable Diffusion 3 được phát triển với số lượng tham số từ 800 triệu đến 8 tỷ, tuỳ thuộc vào phiên bản. Sự khác biệt này cho phép các phiên bản khác nhau chạy mượt mà trên nhiều loại thiết bị khác nhau – từ smartphone cho đến máy chủ. Kích cỡ tham số cũng quyết định khả năng của mô hình, tức là nó có thể tạo ảnh chi tiết đến mức nào. Các mô hình cỡ lớn hiển nhiên cũng đòi hỏi nhiều VRAM trên GPU hơn.

Stable Diffusion
Stable Diffusion 3 sử dụng một loại diffusion transformer mới kết hợp với flow matching

Từ năm 2022, Stability AI đã tung ra nhiều mô hình AI tạo ảnh: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, và nay là 3. Các mô hình mã nguồn mở này được xem là sự thay thế hoàn hảo cho các mô hình tổng hợp hình ảnh độc quyền như DALL-E 3 của OpenAI, tuy nhiên cũng thu hút không ít sự tranh cãi do việc sử dụng dữ liệu bản quyền trong quá trình huấn luyện, tính thiên vị, và nguy cơ bị kẻ xấu lợi dụng. Như đã đề cập trước đó, vì bản chất là mô hình mã nguồn mở, nên Stable Diffusion 3 có thể chạy mà không cần mạng và người dùng có thể tinh chỉnh mô hình để thay đổi kết quả đầu ra theo ý muốn.

Về những cải tiến công nghệ, CEO của Stability AI, Emad Mostaque, cho biết: “Stable Diffusion 3 sử dụng một loại diffusion transformer mới (tương tự Sora AI) kết hợp với flow matching và nhiều cải tiến khác. Nó tận dụng lợi thế của transformer mới và không những chỉ scale tốt hơn mà còn chấp nhận đầu vào đa phương thức nữa”.

Stable Diffusion 3 sử dụng kiến trúc diffusion transformer, một cách tiếp cận mới để tạo ảnh với AI bằng cách loại bỏ các block dựng ảnh thông thường (như kiến trúc U-Net) và thay bằng một hệ thống tập trung vào các phần nhỏ trên bức ảnh. Phương thức này được lấy cảm hứng bởi các transformer, rất hiệu quả trong việc xử lý pattern và sequence. Nó không chỉ mở rộng hiệu quả hơn, mà còn mang lại ảnh với chất lượng cao hơn.

Có thể bạn thích:  Điểm danh các công cụ AI chỉnh ảnh chân dung cực kì tiện lợi

Hơn nữa, Stable Diffusion 3 còn sử dụng flow matching, một kỹ thuật dùng để phát triển mô hình AI có khả năng tạo ảnh bằng cách nghiên cứu quá trình chuyển đổi từ nhiễu hạt ngẫu nhiên thành hình ảnh có cấu trúc rõ rệt một cách mượt mà. Kỹ thuật này thực hiện điều đó mà không cần giả lập từng bước một trong quy trình, thay vào đó tập trung vào flow tổng thể. Theo Stability AI, Stable Diffusion 3 xử lý tốt hơn đáng kể việc tạo ảnh đa chủ thể so với các phiên bản trước đó. Điều này cho phép người dùng nhập vào các câu lệnh chi tiết hơn, với nhiều thành phần hơn, và nhận được kết quả tốt hơn.

Làm sao để sử dụng Stable Diffusion 3?

Hiện tại, mặc dù chúng ta chưa có thể trải nghiệm Stable Diffusion 3, nhưng các bức ảnh mẫu được đăng tải trên website và các tài khoản mạng xã hội của Stability AI đã cho thấy mô hình này hoàn toàn ngang ngửa, thậm chí vượt trội so với các mô hình tổng hợp hình ảnh tiên tiến nhất hiện nay, bao gồm DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney và Google Imagen.

Stable Diffusion
Ứng dụng hứa hẹn khả năng tạo văn bản cực kỳ xuất sắc

Stable Diffusion 3 hứa hẹn khả năng tạo văn bản cực kỳ xuất sắc. Trước đây, tạo văn bản luôn là một điểm yếu đặc trưng của các mô hình tổng hợp hình ảnh. Do đó, việc một mô hình miễn phí như Stable Diffusion 3 sở hữu cải tiến ấn tượng này thật sự là điều đáng kinh ngạc và đáng khen ngợi. Ngoài ra, mức độ chuẩn xác của kết quả so với câu lệnh của Stable Diffusion 3 có vẻ khá tương đồng với DALL-E 3, tuy nhiên, một lần nữa, chúng ta cần đợi phiên bản chính thức mới để đưa ra kết luận chính xác. Stability AI cho biết đang hợp tác với các chuyên gia để thử nghiệm Stable Diffusion 3, từ đó đảm bảo loại bỏ mọi rủi ro tiềm ẩn. Đây cũng là hướng đi mà OpenAI đang thực hiện với Sora AI.

Stable Diffusion
Stable Diffusion 3 sẽ được tải xuống miễn phí

Mặc dù Stable Diffusion 3 chưa được phổ biến rộng rãi, nhưng Stability AI cho biết rằng khi quá trình thử nghiệm hoàn tất, nó sẽ được tải xuống miễn phí và có thể hoạt động mà không cần kết nối mạng internet. “Giai đoạn thử nghiệm này, tương tự như với các mô hình trước đây, là rất quan trọng để thu thập thông tin hữu ích để cải thiện hiệu suất và sự an toàn của mô hình trước khi ra mắt rộng rãi” – Stability AI viết trên trang chủ. Theo thông tin, Stability AI đã và đang thử nghiệm nhiều kiến trúc tổng hợp hình ảnh trong thời gian gần đây. Bên cạnh SDXL và SDXL Turbo, mới đầu tháng này, công ty đã công bố Stable Cascade, một kiến trúc sử dụng quy trình 3 tầng để tổng hợp hình ảnh từ văn bản. Xem thêm video sau để biết thêm nhiều thông tin hữu ích:

Có thể bạn thích:  Ứng dụng Lensa AI là gì?

Kết luận

Trong bối cảnh công nghệ ngày càng phát triển, sự ra đời của Stable Diffusion 3 đánh dấu một bước tiến mới đầy đột phá trong lĩnh vực AI tạo ảnh. Điều đặc sắc của Stable Diffusion 3 là khả năng tổng hợp hình ảnh với độ chi tiết cực cao và khả năng tạo văn bản chất lượng cao, đem đến những trải nghiệm hình ảnh và ngôn ngữ hoàn hảo cho người dùng.

Mô hình này không chỉ có thể tạo ra các bức ảnh với nhiều chủ thể cùng lúc mà còn có khả năng xử lý văn bản một cách chính xác và tự nhiên. Điều này làm nổi bật Stable Diffusion 3 trên thị trường AI tạo ảnh, đặc biệt khi mô hình này là mã nguồn mở, giúp cộng đồng có thể tiếp cận và phát triển nó theo nhiều hướng khác nhau.

Với những tiềm năng và ưu điểm nổi trội của mình, Stable Diffusion 3 hứa hẹn sẽ thay đổi cách chúng ta sử dụng và tạo ra hình ảnh trong tương lai. Sự kết hợp giữa trí tuệ nhân tạo và các công nghệ tiên tiến đã tạo nên một sản phẩm đáng chú ý, đem lại nhiều tiện ích và tiềm năng ứng dụng không giới hạn.

Vũ Thanh Mai

Change the world by being yourself

Similar Posts

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *