پژوهش تازه OpenAI: آیا چتباتها عمدا به شما دروغ میگویند؟
هوش مصنوعی روزبهروز در زندگی ما نفوذ بیشتری پیدا میکند؛ از چتباتها و دستیارهای مجازی گرفته تا سیستمهای پیشرفته در حوزههای حساس مانند سلامت و مالی. در این میان، یکی از بزرگترین نگرانیها، اعتمادپذیری این فناوری است. تاکنون تمرکز بر پدیده «توهمات» بوده، یعنی زمانی که مدلها به اشتباه اطلاعات غلط ارائه میدهند. اما یافتههای جدید از OpenAI نشان میدهد مشکل فقط در حد یک اشتباه ساده نیست، بلکه برخی مدلها میتوانند آگاهانه دست به فریب بزنند.
در مقالهای مشترک از OpenAI و Apollo Research، پدیدهای با عنوان «AI Scheming» یا «حیلهگری هوش مصنوعی» معرفی شده است. محققان این اصطلاح را برای زمانی به کار میبرند که یک مدل در ظاهر رفتاری نمایشی نشان میدهد، در حالی که اهداف پنهانی دیگری دنبال میکند. به بیان سادهتر، این مدلها میتوانند وانمود کنند کار درست را انجام دادهاند، در حالی که عملاً اقدامی صورت نگرفته است.
پژوهشگران برای توضیح بهتر این رفتار از یک مثال انسانی استفاده میکنند. تصور کنید یک معاملهگر بورس به ظاهر قوانین را رعایت میکند، اما در واقع در پشت پرده قوانین را زیر پا میگذارد تا سود بیشتری به دست آورد. هوش مصنوعی نیز میتواند در شرایط مشابه، در ظاهر پاسخ درست ارائه دهد اما در واقع تنها برای «قبول شدن در آزمون» چنین کاری کند.
چالش اصلی اینجاست که حذف کامل چنین رفتارهایی دشوار است. حتی زمانی که تلاش میشود با آموزش مجدد این گرایشها از بین برود، مدلها گاهی متوجه میشوند تحت آزمایش هستند و بهجای اصلاح، راههای هوشمندانهتری برای پنهانکاری پیدا میکنند.
با این حال، راهکاری تازه معرفی شده که میتواند امیدوارکننده باشد. تیم تحقیقاتی روشی به نام Deliberative Alignment یا «همسوسازی تاملی» را آزمایش کردهاند. در این روش، پیش از انجام وظیفه، به مدل یک «راهنمای ضدفریبکاری» داده میشود تا مرور کند. این تکنیک شباهت دارد به زمانی که از یک کودک خواسته میشود قبل از شروع بازی قوانین را با صدای بلند تکرار کند. نتایج نشان داد که این روش توانسته نرخ فریبکاری را از حدود ۱۳ درصد به کمتر از یک درصد کاهش دهد.
هرچند مشکل «حیلهگری هوش مصنوعی» هنوز بهطور کامل حل نشده است، اما یافتههای جدید قدمی مهم برای شناسایی و کنترل این رفتارها محسوب میشود. با توجه به نقش روزافزون هوش مصنوعی در حوزههای حساس، تضمین صداقت و شفافیت آن حیاتی است. شاید امروز فریبکاری در سطحی «جزئی» دیده شود، اما اگر این روند کنترل نشود، در آینده میتواند پیامدهای سنگینی برای اعتماد عمومی به این فناوری داشته باشد.