مقاومت چت‌بات‌‌ها در برابر ترک رفتار مخرب

مطالعات جدید نشان می‌دهد که مدل‌های هوش مصنوعی مخرب در برابر پیشرفته‌ترین روش‌های ایمنی طراحی‌شده برای پاکسازی مقاومت می‌کنند.

به گزارش سایت خبری پرسون، یک مطالعه نگران کننده نشان می‌دهد سیستم‌های هوش مصنوعی که برای مخرب بودن مخفیانه آموزش دیده بودند، در برابر پیشرفته‌ترین روش‌های ایمنی طراحی‌شده برای پاکسازی آن‌ها ازعدم صداقت، مقاومت می‌کنند.

محققان مدل‌های مختلف زبان بزرگ (LLMs)، سیستم‌های هوش مصنوعی مولد شبیه به چت جی‌پی‌تی را برای رفتار بدخواهانه برنامه ریزی کردند. سپس سعی کردند این رفتار را با استفاده از چندین تکنیک آموزش ایمنی که برای ریشه کن کردن فریب و سوء نیت طراحی شده اند، حذف کنند.

آن‌ها دریافتند که صرف نظر از تکنیک آموزشی، مدل‌های زبانی بزرگ به بدرفتاری ادامه می‌دهند. دانشمندان در مقاله خود اعلام کردند که این تکنیک نتیجه معکوس دارد. درواقع آموزش تشخیص اقدامات مخرب به هوش مصنوعی باعث می‌شود این مدل‌ها در پوشاندن رفتار ناامن خود بهتر عمل کنند.

اوان هوبینگر، نویسنده اصلی و دانشمند تحقیقات ایمنی هوش مصنوعی در آنتروپیک می‌گوید: نتیجه کلیدی ما این است که اگر سیستم‌های هوش مصنوعی فریبنده شوند، حذف این فریب با تکنیک‌های فعلی می‌تواند بسیار دشوار باشد. اگر فکر کنیم که سیستم‌های هوش مصنوعی فریبنده در آینده وجود خواهد داشت، فهمیدن این موضوع مهم است چرا که مقابله با آنها ممکن است بسیار دشوار باشد.

دانشمندان یک نوع از هوش مصنوعی را آموزش دادند تا از طریق فریب نوظهور رفتار مخربی داشته باشد که در آن به طور معمول در حین آموزش رفتار می‌کند، اما پس از آن در زمان استقرار رفتار نادرستی از خود نشان می‌دهد. آن‌ها هوش مصنوعی را به گونه‌ای پیکربندی کردند که هنگام تشخیص سال ۲۰۲۳ در اپ (حین آموزش)، کدی امن بنویسد، اما سپس کدی با آسیب پذیری‌های مخفی بنویسد که در سال ۲۰۲۴ (زمانی که مستقر شد) قابل سواستفاده باشد.

روش دوم آنها مسموم سازی مدل بود که در آن مدل‌های هوش مصنوعی آموزش به گونه‌ای داده می‌شدند تا در بیشتر مواقع شبیه به یک چت بات مفید به نظر برسند، اما سپس براساس آموزه‌های مخرب پاسخ می‌دادند.

حتی به برخی از مدل‌ها استدلال زنجیره‌ای داده شد، مکانیزمی که در آن هوش مصنوعی افکار پنهان خود را بر روی یک صفحه چاپ می‌کند تا محققان بتوانند ببینند که چگونه مدل‌های زبانی بزرگ در مورد نحوه پاسخ دادن تصمیم می‌گیرند.

سپس، آن‌ها سه تکنیک آموزش ایمنی یادگیری تقویتی (RL)، تنظیم دقیق نظارت شده (SFT) و آموزش خصمانه را به کار گرفتند. در یادگیری تقویتی مدل هوش مصنوعی برای نشان دادن رفتار‌های مطلوب پاداش و برای نشان دادن تمایلات نامطلوب مجازات می‌شود. در تنظیم دقیق نظارت شده، محققان ابتدا مدل هوش مصنوعی را با محرک‌های مختلف آزمایش کردند و سپس تنها بهترین و مفیدترین پاسخ‌هایی را که انتظار داشتند هوش مصنوعی ارائه دهد، جمع آوری کردند. آن‌ها سپس آموزش مدل‌های بزرگ زبانی را براساس این پایگاه داده به خوبی تنظیم کردند به طوری که هوش مصنوعی یاد گرفت در صورت مواجهه با درخواست‌های مشابه در آینده، از این پاسخ‌های صحیح تقلید کند.

هوبینگر گفت: در نهایت، در آموزش خصمانه از سیستم‌های هوش مصنوعی خواسته می‌شود تا رفتار مضر نشان دهند، حتی زمانی که نباید انجام دهند، و سپس برای حذف آن آموزش داده می‌شوند. من از نتایج تمرینات متخاصممان شگفت زده شدم.

او در ادامه گفت: نتایج ما نشان می‌دهد که ما در حال حاضر دفاع خوبی در برابر فریب در سیستم‌های هوش مصنوعی چه از طریق مسموم کردن مدل و چه از طریق فریب نوظهور نداریم و از آنجایی که ما واقعا هیچ راهی برای دانستن احتمال وقوع آن نداریم، این بدان معنی است که هیچ دفاع قابل اعتمادی در برابر آن نداریم؛ بنابراین من فکر می‌کنم نتایج ما از لحاظ قانونی ترسناک هستند، زیرا آن‌ها به یک حفره احتمالی در مجموعه تکنیک‌های فعلی ما برای هم تراز کردن سیستم‌های هوش مصنوعی اشاره می‌کنند.

منبع: آنا

کد مطلب: 597978

لینک کوتاه