معرفی مدل متن‌باز Robotics-0؛ نخستین مدل رباتیک شیائومی

تیم پلازا - انتشار: 23 بهمن 1404 09:43

ز.م مطالعه: 3 دقیقه

-

امتیاز شما

معرفی مدل متن‌باز Robotics-0؛ نخستین مدل رباتیک شیائومی

شیائومی حالا به‌دنبال رقابت در عرصه در پژوهش رباتیک است.

شرکت شیائومی که تاکنون بیشتر با گوشی‌های هوشمند، تجهیزات خانه هوشمند و خودروهای برقی شناخته می‌شد، اکنون به‌صورت رسمی از نخستین مدل بزرگ‌مقیاس رباتیک خود با نام Xiaomi-Robotics-0 رونمایی کرده است. این مدل یک سیستم متن‌باز از نوع Vision-Language-Action یا VLA با 4.7 میلیارد پارامتر است که با هدف توسعه آنچه شیائومی «هوش فیزیکی» می‌نامد طراحی شده است.

معماری و ساختار فنی

مدل Robotics-0 براساس معماری Mixture-of-Transformers یا MoT توسعه یافته است. در این ساختار، وظایف میان دو بخش اصلی تقسیم می‌شود.

همچنین بخوانید:

بخش نخست یک مدل بینایی-زبان یا VLM است که نقش مغز سیستم را ایفا می‌کند. این بخش توانایی تفسیر دستورهای انسانی حتی در حالت مبهم مانند «لطفا حوله را تا کن» را دارد و می‌تواند روابط را از ورودی‌های تصویری با وضوح بالا درک کند. تشخیص اشیا، پاسخ به پرسش‌های بصری و استدلال منطقی از جمله قابلیت‌های این بخش است.

بخش دوم که شیائومی آن را Action Expert می‌نامد، مبتنی بر یک Diffusion Transformer چندلایه است. این قسمت به‌جای تولید یک حرکت مجزا، مجموعه‌ای از حرکات پیوسته موسوم به Action Chunk را ایجاد می‌کند. استفاده از تکنیک‌های Flow Matching به حفظ دقت و روانی حرکت کمک می‌کند.

حفظ تعادل میان درک و اجرا

یکی از چالش‌های رایج در مدل‌های VLA این است که هنگام آموزش برای انجام اعمال فیزیکی، بخشی از توانایی درک چندوجهی خود را از دست می‌دهند. شیائومی اعلام کرده با آموزش هم‌زمان داده‌های چندوجهی و داده‌های حرکتی توانسته این مشکل را برطرف کند. به این ترتیب مدل درحالی‌که مهارت حرکتی می‌آموزد، توانایی تحلیل و استدلال خود را حفظ می‌کند.

فرآیند آموزش و بهینه‌سازی

آموزش Robotics-0 در چند مرحله انجام می‌شود. ابتدا مکانیزم Action Proposal، مدل بینایی-زبان را وادار می‌کند توزیع‌های احتمالی حرکت را هنگام تحلیل تصویر پیش‌بینی کند. سپس این بخش ثابت می‌شود و مدل Diffusion Transformer به‌صورت جداگانه آموزش می‌بیند تا توالی‌های دقیق حرکتی را تولید کند.

برای کاهش تاخیر در اجرا، شیائومی از روش Inference ناهم‌زمان استفاده کرده است تا محاسبات مدل از عملکرد فیزیکی ربات جدا شود. همچنین تکنیک Clean Action Prefix با بازگرداندن حرکت قبلی به مدل، پایداری و نرمی حرکت را تضمین می‌کند. یک ماسک Λ شکل نیز تمرکز مدل را بر ورودی بصری پیش رو افزایش می‌دهد تا واکنش به تغییرات محیطی سریع‌تر انجام شود.

عملکرد در بنچمارک‌ها و آزمایش واقعی

براساس اعلام شیائومی، Robotics-0 در آزمون‌های LIBERO ،CALVIN و SimplerEnv عملکردی پیشرو ثبت کرده و حدود 30 مدل دیگر را پشت سر گذاشته است. این مدل همچنین روی یک پلتفرم ربات دو بازویی آزمایش شده است. در وظایف طولانی مانند تا کردن حوله یا جدا کردن قطعات ساختنی، ربات توانسته هماهنگی پایدار میان چشم و دست را حفظ کند و با اشیای سخت و انعطاف‌پذیر کار کند.

ورود شیائومی به حوزه مدل‌های رباتیک بزرگ‌مقیاس نشان‌دهنده گسترش راهبرد این شرکت فراتر از بازار مصرفی است. Xiaomi-Robotics-0 اگرچه هنوز در مرحله پژوهشی قرار دارد، اما ترکیب معماری پیشرفته، متن‌باز بودن و آزمایش‌های عملی موفق می‌تواند آن را به یکی از بازیگران جدی در مسیر توسعه هوش فیزیکی تبدیل کند. ادامه این مسیر مشخص خواهد کرد که شیائومی تا چه اندازه می‌تواند جایگاهی پایدار در رقابت جهانی رباتیک به دست آورد.

شیائومی (xiaomi)

ربات (robot)