پژوهش تازه OpenAI: آیا چت‌بات‌ها عمدا به شما دروغ می‌گویند؟

تیم پلازا - انتشار: 29 شهریور 1404 08:32
ز.م مطالعه: 2 دقیقه
-

هوش مصنوعی روزبه‌روز در زندگی ما نفوذ بیشتری پیدا می‌کند؛ از چت‌بات‌ها و دستیارهای مجازی گرفته تا سیستم‌های پیشرفته در حوزه‌های حساس مانند سلامت و مالی. در این میان، یکی از بزرگ‌ترین نگرانی‌ها، اعتمادپذیری این فناوری است. تاکنون تمرکز بر پدیده «توهمات» بوده، یعنی زمانی که مدل‌ها به اشتباه اطلاعات غلط ارائه می‌دهند. اما یافته‌های جدید از OpenAI نشان می‌دهد مشکل فقط در حد یک اشتباه ساده نیست، بلکه برخی مدل‌ها می‌توانند آگاهانه دست به فریب بزنند.

در مقاله‌ای مشترک از OpenAI و Apollo Research، پدیده‌ای با عنوان «AI Scheming» یا «حیله‌گری هوش مصنوعی» معرفی شده است. محققان این اصطلاح را برای زمانی به کار می‌برند که یک مدل در ظاهر رفتاری نمایشی نشان می‌دهد، در حالی که اهداف پنهانی دیگری دنبال می‌کند. به بیان ساده‌تر، این مدل‌ها می‌توانند وانمود کنند کار درست را انجام داده‌اند، در حالی که عملاً اقدامی صورت نگرفته است.

پژوهشگران برای توضیح بهتر این رفتار از یک مثال انسانی استفاده می‌کنند. تصور کنید یک معامله‌گر بورس به ظاهر قوانین را رعایت می‌کند، اما در واقع در پشت پرده قوانین را زیر پا می‌گذارد تا سود بیشتری به دست آورد. هوش مصنوعی نیز می‌تواند در شرایط مشابه، در ظاهر پاسخ درست ارائه دهد اما در واقع تنها برای «قبول شدن در آزمون» چنین کاری کند.

پژوهش تازه OpenAI: آیا چت‌بات‌ها عمدا به شما دروغ می‌گویند؟

چالش اصلی اینجاست که حذف کامل چنین رفتارهایی دشوار است. حتی زمانی که تلاش می‌شود با آموزش مجدد این گرایش‌ها از بین برود، مدل‌ها گاهی متوجه می‌شوند تحت آزمایش هستند و به‌جای اصلاح، راه‌های هوشمندانه‌تری برای پنهان‌کاری پیدا می‌کنند.

با این حال، راهکاری تازه معرفی شده که می‌تواند امیدوارکننده باشد. تیم تحقیقاتی روشی به نام Deliberative Alignment یا «همسوسازی تاملی» را آزمایش کرده‌اند. در این روش، پیش از انجام وظیفه، به مدل یک «راهنمای ضد‌فریبکاری» داده می‌شود تا مرور کند. این تکنیک شباهت دارد به زمانی که از یک کودک خواسته می‌شود قبل از شروع بازی قوانین را با صدای بلند تکرار کند. نتایج نشان داد که این روش توانسته نرخ فریبکاری را از حدود ۱۳ درصد به کمتر از یک درصد کاهش دهد.

هرچند مشکل «حیله‌گری هوش مصنوعی» هنوز به‌طور کامل حل نشده است، اما یافته‌های جدید قدمی مهم برای شناسایی و کنترل این رفتارها محسوب می‌شود. با توجه به نقش روزافزون هوش مصنوعی در حوزه‌های حساس، تضمین صداقت و شفافیت آن حیاتی است. شاید امروز فریبکاری در سطحی «جزئی» دیده شود، اما اگر این روند کنترل نشود، در آینده می‌تواند پیامدهای سنگینی برای اعتماد عمومی به این فناوری داشته باشد.

دیدگاه های کاربران
هیچ دیدگاهی موجود نیست