فناوری جدید یوتیوب؛ لب‌خوانی دقیق برای ویدیوهای دوبله‌شده

تیم پلازا - انتشار: 22 مهر 1404 16:37
ز.م مطالعه: 3 دقیقه
-

پس از معرفی سیستم دوبله خودکار (Auto-Dubbing) در یوتیوب، حالا نوبت به مرحله‌ای تازه از واقع‌گرایی در ویدیوها رسیده است. گوگل قصد دارد با بهره‌گیری از هوش مصنوعی پیشرفته، ترجمه صوتی را به سطحی بالاتر برساند و ویدیوهایی ارائه دهد که لب‌ها و حرکات صورت گوینده دقیقاً با صدای دوبله‌شده هماهنگ باشند.

این اقدام بخشی از استراتژی گسترده گوگل برای افزایش تعامل کاربران با محتوای چندزبانه است؛ رویکردی که با وجود نگرانی‌های اخلاقی و حقوقی، به سرعت در حال گسترش در پلتفرم‌های ویدئویی جهان است.

به گزارش Digital Trends، «بودیکا کوتاهه‌چچی»، مدیر پروژه دوبله خودکار در یوتیوب، جزئیات فناوری جدید را تشریح کرده است. او توضیح داد که سیستم لب‌خوانی خودکار با استفاده از مدل هوش مصنوعی اختصاصی گوگل، تغییرات دقیق در سطح پیکسل‌ها اعمال می‌کند تا حرکات دهان، دندان و حالت‌های چهره با زبان جدید هم‌زمان شوند.

این فناوری با درک سه‌بعدی از ساختار صورت کار می‌کند و قادر است حتی تفاوت‌های ظریف میان لبخند، تلفظ حروف یا تغییر حالت چهره را شبیه‌سازی کند. با توجه به موفقیت مدل تولید ویدیو Veo3 از گوگل، انتظار می‌رود این سیستم نیز به‌زودی به سطح بالایی از واقع‌گرایی دست یابد.

در حال حاضر، قابلیت Lip-Sync AI تنها از ویدیوهای 1080p پشتیبانی می‌کند و توانایی پردازش محتوای 4K را ندارد. زبان‌های پشتیبانی‌شده فعلاً شامل انگلیسی، فرانسوی، آلمانی، پرتغالی و اسپانیایی است، اما گوگل اعلام کرده که قصد دارد تعداد زبان‌ها را به بیش از ۲۰ مورد گسترش دهد، معادل همان زبان‌هایی که در قابلیت دوبله خودکار پشتیبانی می‌شوند.

فناوری جدید یوتیوب؛ لب‌خوانی دقیق برای ویدیوهای دوبله‌شده

گوگل هنوز زمان مشخصی برای عرضه عمومی این قابلیت اعلام نکرده و احتمالاً مانند دوبله خودکار، ابتدا با گروه کوچکی از تولیدکنندگان محتوا به‌صورت آزمایشی آغاز خواهد شد. با توجه به اینکه قابلیت دوبله خودکار تنها ماه گذشته برای کاربران بیشتری فعال شد، به نظر می‌رسد لب‌خوانی خودکار نیز به تدریج در ماه‌های آینده در دسترس قرار گیرد.

بر اساس گزارش‌ها، ممکن است این ویژگی دارای هزینه اضافی باشد؛ اما هنوز مشخص نیست که پرداخت آن بر عهده تولیدکننده محتوا خواهد بود یا بیننده.

نگرانی‌ها و اقدامات امنیتی

یکی از نگرانی‌های اصلی، سوء‌استفاده احتمالی از فناوری لب‌خوانی خودکار است؛ به‌ویژه در مواردی که ویدیوها بدون مجوز رسمی دوباره منتشر می‌شوند. برای مقابله با این مشکل، یوتیوب قصد دارد برچسبی توضیحی در کنار ویدیو نمایش دهد و همچنین از اثر انگشت نامرئی مشابه فناوری SynthID استفاده کند تا منبع اصلی ویدیو قابل شناسایی باشد.

در عین حال، یوتیوب تنها پلتفرمی نیست که به دنبال این فناوری است. متا نیز در سال گذشته برنامه‌ای آزمایشی برای دوبله و لب‌خوانی خودکار در ریلز اینستاگرام اجرا کرد و اخیراً آن را به زبان‌های انگلیسی، هندی، پرتغالی و اسپانیایی گسترش داده است.

فناوری لب‌خوانی خودکار یوتیوب، مرز میان ترجمه ماشینی و تولید محتوای واقعی را کمرنگ‌تر می‌کند. این قابلیت می‌تواند برای مخاطبان جهانی فرصتی بزرگ در درک بهتر محتوای چندزبانه باشد، اما هم‌زمان چالش‌هایی در زمینه اصالت محتوا و حقوق معنوی پدید می‌آورد. اگر گوگل موفق شود نگرانی‌های امنیتی را مدیریت کند، Lip-Sync AI می‌تواند تحولی مهم در تولید محتوای جهانی و بومی‌سازی ویدیوها باشد.

دیدگاه های کاربران
هیچ دیدگاهی موجود نیست