Khuyến mãi Khuyến mãi

AI của Microsoft giúp ảnh chuyển động và nói chuyện

mhm2022
Th 2 29/04/2024

VASA-1, công cụ AI mới của Microsoft, không chỉ tạo ra các cử động môi "đồng bộ một cách tinh tế" kèm âm thanh, mà còn thể hiện thần thái tự nhiên của nhân vật thông qua các chuyển động tự nhiên của khuôn mặt và đầu, tạo ra một trải nghiệm đầy chân thực.

Theo Microsoft, đây là một "hệ thống động học cho khuôn mặt" đã được huấn luyện thông qua một mô hình tạo ra các chuyển động "tốt hơn một cách toàn diện so với các phương pháp trước đó". AI này hỗ trợ xử lý ảnh chân dung với phần đầu và phần trên của thân, hiển thị các biểu cảm như vui vẻ, tức giận, ngạc nhiên hoặc nghiêm nghị một cách tự nhiên và sinh động.

Trong một video giới thiệu trên YouTube, Microsoft đã thể hiện khả năng của AI này bằng cách làm cho các bức ảnh, tạo bởi Dall-E 3 và StyleGAN2, có thể nói chuyện một cách tự nhiên. Người dùng cũng có thể điều chỉnh các thông số về khuôn mặt, biểu cảm, giọng nói và nhiều chi tiết khác. Trang chuyên về hình ảnh PetaPixel đã đánh giá VASA-1 với khả năng thể hiện tốt hơn so với các AI tương tự, khiến khó phân biệt nếu xem lần đầu.

Tuy nhiên, Microsoft từ chối tiết lộ mô hình đứng sau, cũng như không có kế hoạch phát hành sản phẩm riêng, hoặc cung cấp API cho các nhà phát triển. Họ giới thiệu VASA-1 "nhằm phô diễn một trong những khả năng của AI".

"Nghiên cứu của chúng tôi tập trung vào việc phát triển cảm xúc trực quan cho ảnh đại diện AI, nhằm mục đích sử dụng tích cực", Microsoft viết trên trang web của công ty. "Nó không phải là về việc tạo ra nội dung gây hiểu lầm hoặc lừa dối. Tuy nhiên, giống như các mô hình AI khác, nó vẫn có thể bị lạm dụng để mạo danh con người. Chúng tôi phản đối bất kỳ hành vi nào như vậy".

Bên cạnh sự phát triển mạnh mẽ của các chatbot như ChatGPT và Google Gemini, lĩnh vực trí tuệ nhân tạo cũng đang chứng kiến cuộc đua giữa các mô hình có khả năng tạo ra video như thật từ ảnh tĩnh. Trong tháng trước, Alibaba đã giới thiệu công cụ EMO (Emotive Portrait Alive) với những tiến bộ đáng kinh ngạc.

Trong khi các công nghệ AI trước đây thường chỉ tập trung vào việc biến đổi miệng và một phần của khuôn mặt, EMO có khả năng tạo ra nét mặt, tư thế, di chuyển phần lông mày, nhíu mắt, thậm chí là lắc lư theo điệu nhạc. Đặc biệt, phần miệng được thể hiện tự nhiên, đồng bộ với môi chính xác, tạo ra sự ấn tượng mạnh mẽ về tính chân thực của hình ảnh.

Sự ra đời của các công cụ như EMO mở ra những cơ hội mới đối với việc tạo ra nội dung số động và sinh động hơn bao giờ hết. Điều này có thể có ứng dụng rộng rãi trong nhiều lĩnh vực, từ giải trí đến quảng cáo và giáo dục, đồng thời tạo ra những trải nghiệm mới và độc đáo cho người dùng.

Khả năng của AI Microsoft VASA-1. Video: Outright Systems
Social Facebook Facebook Social Youtube Youtube Social Tiktok Tiktok