گوگل مدل جدید هوش مصنوعی Gemini 2.5 Computer Use را معرفی کرد

تیم پلازا - انتشار: 16 مهر 1404 07:59
ز.م مطالعه: 2 دقیقه
-

گوگل امروز مدل جدیدی از خانواده جمینای را با نام Gemini 2.5 Computer Use معرفی کرد؛ مدلی تخصصی که برای تعامل هوش مصنوعی با رابط‌های کاربری (UI) طراحی شده و به گفته گوگل، در چندین بنچمارک مهم وب و موبایل از سایر مدل‌های مشابه عملکرد بهتری دارد.

این مدل بخشی از ابزار Computer Use در API جمینای است که به توسعه‌دهندگان امکان می‌دهد عامل‌های هوشمندی بسازند که بتوانند همانند انسان، با محیط‌های نرم‌افزاری تعامل داشته باشند، از کلیک و تایپ گرفته تا تأیید عملیات خرید. فرآیند تعامل این مدل با رابط کاربری شامل مراحل زیر است:

  1. توسعه‌دهنده درخواست کاربر را همراه با اسکرین‌شات محیط و تاریخچه عملکردها به مدل ارسال می‌کند.

  2. مدل با تحلیل داده‌های دریافتی، اقدام مناسب را پیشنهاد می‌دهد، برای مثال کلیک روی دکمه یا وارد کردن متن.

  3. اگر مدل درباره یک عمل مطمئن نباشد (مثلاً خرید کالا)، از کاربر تأیید می‌خواهد.

  4. پس از اجرای عمل، اسکرین‌شات جدید محیط و آدرس فعلی به مدل بازگردانده می‌شود تا چرخه تکرار شود تا زمانی که هدف اصلی محقق گردد.

گوگل می‌گوید این مدل عمدتاً برای مرورگرهای وب بهینه شده، اما در کنترل رابط‌های موبایلی نیز عملکرد درخشانی دارد. هنوز برای کنترل سیستم‌عامل‌های دسکتاپ بهینه‌سازی نشده است.

طبق اعلام گوگل، Gemini 2.5 Computer Use در حال حاضر به‌صورت پیش‌نمایش عمومی از طریق Gemini API در پلتفرم‌های Google AI Studio و Vertex AI در دسترس توسعه‌دهندگان قرار دارد. نتایج بنچمارک‌های منتشرشده نشان می‌دهند این مدل در کنترل محیط‌های وب و موبایل عملکردی در سطح عالی دارد و می‌تواند گام مهمی در جهت ساخت عامل‌های خودکار هوشمند باشد.

با عملکردی فراتر از رقبا در بنچمارک‌های کنترل وب و موبایل، Gemini 2.5 Computer Use نشان می‌دهد گوگل در مسیر ساخت هوش مصنوعی‌هایی که بتوانند مانند انسان با نرم‌افزارها کار کنند، پیشتاز است. انتشار عمومی این مدل در Google AI Studio و Vertex AI می‌تواند آغازگر دوره‌ای جدید در تعامل انسان و ماشین باشد.

دیدگاه های کاربران
هیچ دیدگاهی موجود نیست