دیپ سیک مدل استدلالی R1 را با بهبودهای چشمگیر به‌روزرسانی کرد

تیم پلازا - انتشار: 8 خرداد 1404 07:58
ز.م مطالعه: 2 دقیقه
-

اوایل سال جاری، DeepSeek، یک استارتاپ نسبتاً ناشناخته در چین، با عرضه‌ی مدل استدلالی متن‌باز خود تحت عنوان R1، به‌سرعت توجه صنعت هوش مصنوعی را جلب کرد. این مدل که به‌صورت رایگان در دسترس قرار گرفت، در اغلب آزمون‌ها با مدل‌های مطرحی از جمله o4-Mini از OpenAI یا Claude از Anthropic و Gemini از گوگل برابری می‌کرد؛ در حالی که برای آموزش آن منابع سخت‌افزاری و انرژی بسیار کمتری مصرف شد.

موفقیت اولیه‌ی R1 مرهون چند تکنیک پیشرفته بود:

  • معماری Mixture-of-Experts (MoE) بهبود یافته برای تفکیک کار میان زیربخش‌های تخصصی

  • روش‌های فشرده‌سازی پیشرفته که حجم مدل را کاهش می‌داد

  • قابلیت پیش‌بینی چندتوکنی برای تولید خروجی‌های هم‌زمان دقیق‌تر

  • متدولوژی یادگیری تقویتی‌محور (Reinforcement Learning–First) برای بهینه‌سازی استدلال

امروز DeepSeek‌ نسخه‌ی اصلاح شده و ارتقایافته‌ی R1 را با نام DeepSeek-R1-0528 منتشر کرد. این به‌روزرسانی شامل بهبود در دقت استدلال و همچنین کارایی بالاتر است. فایل مدل و وزن‌ها از طریق وبسایت Hugging Face در دسترس قرار دارند. اگرچه DeepSeek هنوز بنچمارک‌های رسمی خود را منتشر نکرده، اما نتایج غیررسمی از سوی توسعه‌دهندگان و علاقه‌مندان به هوش مصنوعی نشان می‌دهد که این نسخه عملکرد بسیار قوی‌ای دارد. طبق گزارش LiveCodeBench، مرجعی برای ارزیابی توانایی کدنویسی مدل‌های زبان بزرگ، مدل R1-0528 در جایگاه چهارم ایستاده است و از مدل‌هایی مانند o4-Mini یا Grok-3-mini و Gemini 2.5 Flash Preview پیشی گرفته است. از سمت دیگر، در شبکه‌ی اجتماعی X، کاربری با نام Chetasula نیز گزارش داده که R1-0528 اکنون «استدلال عمیق» انجام می‌دهد و بسته به وظیفه، برای مدت ۳۰ تا ۶۰ دقیقه می‌تواند به‌طور مداوم به تحلیل داده و نوشتن ادامه دهد. علاقه‌مندان می‌توانند برای امتحان مدل جدید از OpenRouter یا LMArena استفاده کنند.

با انتشار R1-0528، دیپ‌سیک بار دیگر نشان داد که نوآوری در معماری و روش‌های آموزش می‌تواند حتی با منابع محدود، مدل‌هایی با عملکرد درخورتوجه تولید کند. این پیشرفت به‌ویژه در حوزه‌ی استدلال طولانی‌مدت و کدنویسی کاربردی اهمیت دارد و می‌تواند نقطه‌عطفی در رقابت با مدل‌های بزرگ‌ مانند GPT و Gemini باشد. اکنون تمرکز بر انتشار بنچ‌مارک‌های رسمی و بهبود بیشتر تجربه کاربری است.

دیدگاه های کاربران
هیچ دیدگاهی موجود نیست
    دیپ سیک مدل استدلالی R1 را با بهبودهای چشمگیر به‌روزرسانی کرد - پلازا