مایکروسافت با پروژه هوش مصنوعی VibeVoice تولید پادکست ۹۰ دقیقهای با متن را ممکن کرد
مایکروسافت بار دیگر با پروژهای نوآورانه در حوزه هوش مصنوعی خبرساز شده است. برخلاف بسیاری از پروژههای اخیر که حول محور Copilot بودند، این بار شرکت ردموندی از یک ابزار متنباز جدید به نام VibeVoice رونمایی کرده است. این ابزار تمرکز ویژهای بر فناوری متن به گفتار دارد و میتواند متن ساده را به یک فایل صوتی طولانی با کیفیتی شبیه صدای انسان تبدیل کند.
بر اساس توضیحات مایکروسافت، VibeVoice قادر است محتوایی به طول ۹۰ دقیقه با ۴ گوینده مجزا تولید کند. این توانایی فراتر از بسیاری از سیستمهای سنتی TTS است که اغلب تنها یک یا دو گوینده را پشتیبانی میکنند. علاوه بر این، این مدل در بخشهایی مثل پایداری صدا، گفتوگوی طبیعی بین گویندگان و مقیاسپذیری عملکرد بهتری دارد. این پروژه در حال حاضر به دو نسخه اصلی تقسیم میشود:
مدل ۱.۵ میلیارد پارامتری: توانایی تولید ۹۰ دقیقه صدا با پنجره متنی ۶۴k.
مدل ۷ میلیارد پارامتری: تولید ۴۵ دقیقه صدا با کیفیت بالاتر و پنجره متنی ۳۲k.
نسخه سبکتر با ۰.۵ میلیارد پارامتر نیز در راه است که برای تولید صوت لحظهای طراحی شده است. به گفته مایکروسافت، اجرای این مدلها به سختافزار سنگین نیاز ندارد؛ نسخه کوچک تنها حدود ۷ گیگابایت و نسخه بزرگتر تا ۱۸ گیگابایت VRAM مصرف میکند. در حال حاضر VibeVoice فقط از زبانهای انگلیسی و چینی پشتیبانی میکند، اما احتمال پشتیبانی از زبانهای دیگر در آینده وجود دارد. این سیستم حتی میتواند احساسات انسانی را شبیهسازی کند و فایلهای صوتی چندنفره تولید کند. البته قابلیتهایی مثل خواندن آواز هنوز ابتدایی و غیرطبیعی هستند.
این فناوری میتواند کاربردهای گستردهای داشته باشد؛ از تولید پادکست و صداگذاری ویدیو گرفته تا ابزارهای دسترسپذیری برای افراد با محدودیتهای بینایی یا شنوایی. حتی در آینده امکان شبیهسازی صداهای اختصاصی نیز در برنامه توسعه این پروژه دیده شده است.
پروژه VibeVoice مایکروسافت میتواند فصل تازهای در حوزه تبدیل متن به گفتار باز کند. توانایی تولید محتوای طولانی، چندصدایی و با کیفیت بالا، این ابزار را به گزینهای جذاب برای تولید محتوا، آموزش، دسترسپذیری و حتی سرگرمی تبدیل میکند. هرچند هنوز در مراحل ابتدایی است، اما با توجه به متنباز بودن و پشتیبانی جامعه توسعهدهندگان، میتوان انتظار داشت در آیندهای نزدیک، زبانها و قابلیتهای بیشتری به آن افزوده شود.