شیائومی حالا بهدنبال رقابت در عرصه در پژوهش رباتیک است.
شرکت شیائومی که تاکنون بیشتر با گوشیهای هوشمند، تجهیزات خانه هوشمند و خودروهای برقی شناخته میشد، اکنون بهصورت رسمی از نخستین مدل بزرگمقیاس رباتیک خود با نام Xiaomi-Robotics-0 رونمایی کرده است. این مدل یک سیستم متنباز از نوع Vision-Language-Action یا VLA با 4.7 میلیارد پارامتر است که با هدف توسعه آنچه شیائومی «هوش فیزیکی» مینامد طراحی شده است.
معماری و ساختار فنی
مدل Robotics-0 براساس معماری Mixture-of-Transformers یا MoT توسعه یافته است. در این ساختار، وظایف میان دو بخش اصلی تقسیم میشود.
بخش نخست یک مدل بینایی-زبان یا VLM است که نقش مغز سیستم را ایفا میکند. این بخش توانایی تفسیر دستورهای انسانی حتی در حالت مبهم مانند «لطفا حوله را تا کن» را دارد و میتواند روابط را از ورودیهای تصویری با وضوح بالا درک کند. تشخیص اشیا، پاسخ به پرسشهای بصری و استدلال منطقی از جمله قابلیتهای این بخش است.
بخش دوم که شیائومی آن را Action Expert مینامد، مبتنی بر یک Diffusion Transformer چندلایه است. این قسمت بهجای تولید یک حرکت مجزا، مجموعهای از حرکات پیوسته موسوم به Action Chunk را ایجاد میکند. استفاده از تکنیکهای Flow Matching به حفظ دقت و روانی حرکت کمک میکند.
حفظ تعادل میان درک و اجرا
یکی از چالشهای رایج در مدلهای VLA این است که هنگام آموزش برای انجام اعمال فیزیکی، بخشی از توانایی درک چندوجهی خود را از دست میدهند. شیائومی اعلام کرده با آموزش همزمان دادههای چندوجهی و دادههای حرکتی توانسته این مشکل را برطرف کند. به این ترتیب مدل درحالیکه مهارت حرکتی میآموزد، توانایی تحلیل و استدلال خود را حفظ میکند.
فرآیند آموزش و بهینهسازی
آموزش Robotics-0 در چند مرحله انجام میشود. ابتدا مکانیزم Action Proposal، مدل بینایی-زبان را وادار میکند توزیعهای احتمالی حرکت را هنگام تحلیل تصویر پیشبینی کند. سپس این بخش ثابت میشود و مدل Diffusion Transformer بهصورت جداگانه آموزش میبیند تا توالیهای دقیق حرکتی را تولید کند.
برای کاهش تاخیر در اجرا، شیائومی از روش Inference ناهمزمان استفاده کرده است تا محاسبات مدل از عملکرد فیزیکی ربات جدا شود. همچنین تکنیک Clean Action Prefix با بازگرداندن حرکت قبلی به مدل، پایداری و نرمی حرکت را تضمین میکند. یک ماسک Λ شکل نیز تمرکز مدل را بر ورودی بصری پیش رو افزایش میدهد تا واکنش به تغییرات محیطی سریعتر انجام شود.
عملکرد در بنچمارکها و آزمایش واقعی
براساس اعلام شیائومی، Robotics-0 در آزمونهای LIBERO ،CALVIN و SimplerEnv عملکردی پیشرو ثبت کرده و حدود 30 مدل دیگر را پشت سر گذاشته است. این مدل همچنین روی یک پلتفرم ربات دو بازویی آزمایش شده است. در وظایف طولانی مانند تا کردن حوله یا جدا کردن قطعات ساختنی، ربات توانسته هماهنگی پایدار میان چشم و دست را حفظ کند و با اشیای سخت و انعطافپذیر کار کند.
ورود شیائومی به حوزه مدلهای رباتیک بزرگمقیاس نشاندهنده گسترش راهبرد این شرکت فراتر از بازار مصرفی است. Xiaomi-Robotics-0 اگرچه هنوز در مرحله پژوهشی قرار دارد، اما ترکیب معماری پیشرفته، متنباز بودن و آزمایشهای عملی موفق میتواند آن را به یکی از بازیگران جدی در مسیر توسعه هوش فیزیکی تبدیل کند. ادامه این مسیر مشخص خواهد کرد که شیائومی تا چه اندازه میتواند جایگاهی پایدار در رقابت جهانی رباتیک به دست آورد.
