فناوری جدید یوتیوب؛ لبخوانی دقیق برای ویدیوهای دوبلهشده
پس از معرفی سیستم دوبله خودکار (Auto-Dubbing) در یوتیوب، حالا نوبت به مرحلهای تازه از واقعگرایی در ویدیوها رسیده است. گوگل قصد دارد با بهرهگیری از هوش مصنوعی پیشرفته، ترجمه صوتی را به سطحی بالاتر برساند و ویدیوهایی ارائه دهد که لبها و حرکات صورت گوینده دقیقاً با صدای دوبلهشده هماهنگ باشند.
این اقدام بخشی از استراتژی گسترده گوگل برای افزایش تعامل کاربران با محتوای چندزبانه است؛ رویکردی که با وجود نگرانیهای اخلاقی و حقوقی، به سرعت در حال گسترش در پلتفرمهای ویدئویی جهان است.
به گزارش Digital Trends، «بودیکا کوتاههچچی»، مدیر پروژه دوبله خودکار در یوتیوب، جزئیات فناوری جدید را تشریح کرده است. او توضیح داد که سیستم لبخوانی خودکار با استفاده از مدل هوش مصنوعی اختصاصی گوگل، تغییرات دقیق در سطح پیکسلها اعمال میکند تا حرکات دهان، دندان و حالتهای چهره با زبان جدید همزمان شوند.
این فناوری با درک سهبعدی از ساختار صورت کار میکند و قادر است حتی تفاوتهای ظریف میان لبخند، تلفظ حروف یا تغییر حالت چهره را شبیهسازی کند. با توجه به موفقیت مدل تولید ویدیو Veo3 از گوگل، انتظار میرود این سیستم نیز بهزودی به سطح بالایی از واقعگرایی دست یابد.
در حال حاضر، قابلیت Lip-Sync AI تنها از ویدیوهای 1080p پشتیبانی میکند و توانایی پردازش محتوای 4K را ندارد. زبانهای پشتیبانیشده فعلاً شامل انگلیسی، فرانسوی، آلمانی، پرتغالی و اسپانیایی است، اما گوگل اعلام کرده که قصد دارد تعداد زبانها را به بیش از ۲۰ مورد گسترش دهد، معادل همان زبانهایی که در قابلیت دوبله خودکار پشتیبانی میشوند.
گوگل هنوز زمان مشخصی برای عرضه عمومی این قابلیت اعلام نکرده و احتمالاً مانند دوبله خودکار، ابتدا با گروه کوچکی از تولیدکنندگان محتوا بهصورت آزمایشی آغاز خواهد شد. با توجه به اینکه قابلیت دوبله خودکار تنها ماه گذشته برای کاربران بیشتری فعال شد، به نظر میرسد لبخوانی خودکار نیز به تدریج در ماههای آینده در دسترس قرار گیرد.
بر اساس گزارشها، ممکن است این ویژگی دارای هزینه اضافی باشد؛ اما هنوز مشخص نیست که پرداخت آن بر عهده تولیدکننده محتوا خواهد بود یا بیننده.
نگرانیها و اقدامات امنیتی
یکی از نگرانیهای اصلی، سوءاستفاده احتمالی از فناوری لبخوانی خودکار است؛ بهویژه در مواردی که ویدیوها بدون مجوز رسمی دوباره منتشر میشوند. برای مقابله با این مشکل، یوتیوب قصد دارد برچسبی توضیحی در کنار ویدیو نمایش دهد و همچنین از اثر انگشت نامرئی مشابه فناوری SynthID استفاده کند تا منبع اصلی ویدیو قابل شناسایی باشد.
در عین حال، یوتیوب تنها پلتفرمی نیست که به دنبال این فناوری است. متا نیز در سال گذشته برنامهای آزمایشی برای دوبله و لبخوانی خودکار در ریلز اینستاگرام اجرا کرد و اخیراً آن را به زبانهای انگلیسی، هندی، پرتغالی و اسپانیایی گسترش داده است.
فناوری لبخوانی خودکار یوتیوب، مرز میان ترجمه ماشینی و تولید محتوای واقعی را کمرنگتر میکند. این قابلیت میتواند برای مخاطبان جهانی فرصتی بزرگ در درک بهتر محتوای چندزبانه باشد، اما همزمان چالشهایی در زمینه اصالت محتوا و حقوق معنوی پدید میآورد. اگر گوگل موفق شود نگرانیهای امنیتی را مدیریت کند، Lip-Sync AI میتواند تحولی مهم در تولید محتوای جهانی و بومیسازی ویدیوها باشد.