ساخت چهره‌های سخنگو از روی عکس توسط هوش مصنوعی

مایکروسافت از هوش مصنوعی جدید خود به نام Vasa رونمایی کرد که می‌تواند از روی عکس چهره‌های سخنگو با حرکات لب کاملاً هماهنگ و طبیعی با حرکات سر تولید کند.

ساخت چهره های سخنگو از روی عکس

عملکرد این سیستم چیزی فراتر از تطبیق لب با صدا بوده و در آن طیف گسترده‌ای از ظرافت‌های چهره حرکات طبیعی سر و احساسات نیز مشاهده خواهد شد. همچنین چهره‌های ساخته شده توسط این سیستم فناوری بسیار واقعی‌تر است. علاوه بر آن به کاربران اجازه داده می‌شود تا جهت نگاه کردن شخصیت، حالت احساس و فاصله درک شده را مشخص کنند.

این سیستم هیچگونه آموزشی با کمک عکس‌های هنری صدای آواز یا گفتار غیر انگلیسی ندیده اما امکان تولید ویدیو با استفاده از این ورودی‌ها را خواهد داشت. مایکروسافت در ادامه توضیحات خود می‌گوید این سیستم قادر به تولید ویدیوها با وضوح بالا بوده و نرخ فریم ویدیوهای تولید شده نیز بسیار بالا است. Vasa1 می‌تواند در حالت آفلاین ویدیوهایی با سرعت ۴۵ فریم در ثانیه ایجاد کند و در شکل آنلاین سرعت آن به ۴۰ فریم در ثانیه می‌رسد.

مایکروسافت معتقد است در آینده این سیستم می‌تواند پتانسیل سوء استفاده از سیستم‌های هوش مصنوعی را برجسته‌تر کند. همچنین از کاربردهای این سیستم می‌توان به تجربیات آموزشی بهتر و افزایش زمینه ارتباطات اشاره کرد. در نمونه منتشر شده تصویری از نقاشی معروف مونا لیزا در حال صحبت کردن منتشر شد که قابلیت و عملکرد این مدل را نشان می دهد.

منبع


کامنت ها