مایکروسافت با پروژه هوش مصنوعی VibeVoice تولید پادکست ۹۰ دقیقه‌ای با متن را ممکن کرد

تیم پلازا - انتشار: 5 شهریور 1404 16:10
ز.م مطالعه: 2 دقیقه
-

مایکروسافت بار دیگر با پروژه‌ای نوآورانه در حوزه هوش مصنوعی خبرساز شده است. برخلاف بسیاری از پروژه‌های اخیر که حول محور Copilot بودند، این بار شرکت ردموندی از یک ابزار متن‌باز جدید به نام VibeVoice رونمایی کرده است. این ابزار تمرکز ویژه‌ای بر فناوری متن به گفتار دارد و می‌تواند متن ساده را به یک فایل صوتی طولانی با کیفیتی شبیه صدای انسان تبدیل کند.

بر اساس توضیحات مایکروسافت، VibeVoice قادر است محتوایی به طول ۹۰ دقیقه با ۴ گوینده مجزا تولید کند. این توانایی فراتر از بسیاری از سیستم‌های سنتی TTS است که اغلب تنها یک یا دو گوینده را پشتیبانی می‌کنند. علاوه بر این، این مدل در بخش‌هایی مثل پایداری صدا، گفت‌وگوی طبیعی بین گویندگان و مقیاس‌پذیری عملکرد بهتری دارد. این پروژه در حال حاضر به دو نسخه اصلی تقسیم می‌شود:

  • مدل ۱.۵ میلیارد پارامتری: توانایی تولید ۹۰ دقیقه صدا با پنجره متنی ۶۴k.

  • مدل ۷ میلیارد پارامتری: تولید ۴۵ دقیقه صدا با کیفیت بالاتر و پنجره متنی ۳۲k.

نسخه سبک‌تر با ۰.۵ میلیارد پارامتر نیز در راه است که برای تولید صوت لحظه‌ای طراحی شده است. به گفته مایکروسافت، اجرای این مدل‌ها به سخت‌افزار سنگین نیاز ندارد؛ نسخه کوچک تنها حدود ۷ گیگابایت و نسخه بزرگ‌تر تا ۱۸ گیگابایت VRAM مصرف می‌کند. در حال حاضر VibeVoice فقط از زبان‌های انگلیسی و چینی پشتیبانی می‌کند، اما احتمال پشتیبانی از زبان‌های دیگر در آینده وجود دارد. این سیستم حتی می‌تواند احساسات انسانی را شبیه‌سازی کند و فایل‌های صوتی چندنفره تولید کند. البته قابلیت‌هایی مثل خواندن آواز هنوز ابتدایی و غیرطبیعی هستند.

این فناوری می‌تواند کاربردهای گسترده‌ای داشته باشد؛ از تولید پادکست و صداگذاری ویدیو گرفته تا ابزارهای دسترس‌پذیری برای افراد با محدودیت‌های بینایی یا شنوایی. حتی در آینده امکان شبیه‌سازی صداهای اختصاصی نیز در برنامه توسعه این پروژه دیده شده است.

پروژه VibeVoice مایکروسافت می‌تواند فصل تازه‌ای در حوزه تبدیل متن به گفتار باز کند. توانایی تولید محتوای طولانی، چندصدایی و با کیفیت بالا، این ابزار را به گزینه‌ای جذاب برای تولید محتوا، آموزش، دسترس‌پذیری و حتی سرگرمی تبدیل می‌کند. هرچند هنوز در مراحل ابتدایی است، اما با توجه به متن‌باز بودن و پشتیبانی جامعه توسعه‌دهندگان، می‌توان انتظار داشت در آینده‌ای نزدیک، زبان‌ها و قابلیت‌های بیشتری به آن افزوده شود.

تگ ها:
دیدگاه های کاربران
هیچ دیدگاهی موجود نیست