گوگل مدل جدید هوش مصنوعی Gemini 2.5 Computer Use را معرفی کرد
گوگل امروز مدل جدیدی از خانواده جمینای را با نام Gemini 2.5 Computer Use معرفی کرد؛ مدلی تخصصی که برای تعامل هوش مصنوعی با رابطهای کاربری (UI) طراحی شده و به گفته گوگل، در چندین بنچمارک مهم وب و موبایل از سایر مدلهای مشابه عملکرد بهتری دارد.
این مدل بخشی از ابزار Computer Use در API جمینای است که به توسعهدهندگان امکان میدهد عاملهای هوشمندی بسازند که بتوانند همانند انسان، با محیطهای نرمافزاری تعامل داشته باشند، از کلیک و تایپ گرفته تا تأیید عملیات خرید. فرآیند تعامل این مدل با رابط کاربری شامل مراحل زیر است:
توسعهدهنده درخواست کاربر را همراه با اسکرینشات محیط و تاریخچه عملکردها به مدل ارسال میکند.
مدل با تحلیل دادههای دریافتی، اقدام مناسب را پیشنهاد میدهد، برای مثال کلیک روی دکمه یا وارد کردن متن.
اگر مدل درباره یک عمل مطمئن نباشد (مثلاً خرید کالا)، از کاربر تأیید میخواهد.
پس از اجرای عمل، اسکرینشات جدید محیط و آدرس فعلی به مدل بازگردانده میشود تا چرخه تکرار شود تا زمانی که هدف اصلی محقق گردد.
گوگل میگوید این مدل عمدتاً برای مرورگرهای وب بهینه شده، اما در کنترل رابطهای موبایلی نیز عملکرد درخشانی دارد. هنوز برای کنترل سیستمعاملهای دسکتاپ بهینهسازی نشده است.
طبق اعلام گوگل، Gemini 2.5 Computer Use در حال حاضر بهصورت پیشنمایش عمومی از طریق Gemini API در پلتفرمهای Google AI Studio و Vertex AI در دسترس توسعهدهندگان قرار دارد. نتایج بنچمارکهای منتشرشده نشان میدهند این مدل در کنترل محیطهای وب و موبایل عملکردی در سطح عالی دارد و میتواند گام مهمی در جهت ساخت عاملهای خودکار هوشمند باشد.
با عملکردی فراتر از رقبا در بنچمارکهای کنترل وب و موبایل، Gemini 2.5 Computer Use نشان میدهد گوگل در مسیر ساخت هوش مصنوعیهایی که بتوانند مانند انسان با نرمافزارها کار کنند، پیشتاز است. انتشار عمومی این مدل در Google AI Studio و Vertex AI میتواند آغازگر دورهای جدید در تعامل انسان و ماشین باشد.