شعر، سدهای امنیتی هوش مصنوعی را دور می‌زند
شعر، سدهای امنیتی هوش مصنوعی را دور می‌زند
ایرانیان تحلیل _ پژوهش تازه آزمایشگاه ایکارو نشان می‌دهد ساختارهای شاعرانه می‌توانند موانع امنیتی برخی مدل‌های زبانی را دور بزنند. محققان می‌گویند استفاده از شعر دسترسی به اطلاعات ممنوعه را آسان‌تر از تصور رایج می‌کند. این یافته‌ها بحث تازه‌ای درباره ایمنی هوش مصنوعی ایجاد کرده است.

به گزارش ایرانیان تحلیل ،پژوهش تازه آزمایشگاه ایکارو نشان می‌دهد ساختارهای شاعرانه می‌توانند موانع امنیتی برخی مدل‌های زبانی را دور بزنند. محققان می‌گویند استفاده از شعر، دسترسی به اطلاعات ممنوعه را آسان‌تر از تصور رایج می‌کند. این یافته‌ها بحث تازه‌ای درباره ایمنی هوش مصنوعی ایجاد کرده است.


 آزمایش «شعر خصمانه» چگونه اجرا شد؟

پژوهشگران ایکارو دستورهای حساس را در قالب شعر برای مدل‌های زبانی مطرح کردند تا واکنش آنها را بسنجند. آنها از موضوعاتی مانند ساخت سلاح هسته‌ای، محتواهای مرتبط با سوءاستفاده از کودکان و دستورهای خودآزاری استفاده کردند.

نتایج نشان داد ساختار شاعرانه نقش یک «اپراتور فرار» را بازی می‌کند و سدهای امنیتی برخی مدل‌ها را تضعیف می‌کند. میزان موفقیت این روش در تولید محتوای ممنوعه به ۶۲ درصد رسید.


عملکرد مدل‌های هوش مصنوعی چه تفاوتی داشت؟

مطالعه ایکارو تعداد زیادی از مدل‌های شناخته‌شده را آزمایش کرد. جمینای گوگل، دیپ‌سیک و MistralAI بیشترین تمایل را به پاسخ‌گویی داشتند و محافظت‌های امنیتی آنها آسیب‌پذیرتر بود.

در مقابل، نسخه‌های جدید GPT-5 و مدل Claude Haiku 4.5 مقاومت بیشتری نشان دادند و احتمال عبور از محدودیت‌ها در آنها پایین‌تر بود.

محققان تأکید کردند این تفاوت‌ها نشان می‌دهد معماری و مکانیسم‌های محافظتی هر LLM نقش تعیین‌کننده‌ای در سطح ایمنی دارد.


 چرا شعر خطرناک شد؟

ایکارو اعلام کرد نسخه اصلی شعر استفاده‌شده در دسترس عموم قرار نمی‌گیرد؛ زیرا می‌تواند رفتار مدل‌های هوش مصنوعی را به شکلی پیش‌بینی‌نشده تغییر دهد.

با این حال، پژوهشگران یک نسخه رقیق‌شده منتشر کردند تا نشان دهند خلاقیت زبانی، حتی در شکل شاعرانه، می‌تواند امنیت چت‌بات‌ها را تهدید کند.

آنها گفتند عبور از موانع امنیتی «ساده‌تر از چیزی است که تصور می‌شود» و نبود آگاهی عمومی، خطر را بیشتر می‌کند.


جمع‌بندی

پژوهش ایکارو بحث تازه‌ای درباره ایمنی مدل‌های زبانی ایجاد کرده است. استفاده از شعر به‌عنوان ابزار حمله نشان می‌دهد خلاقیت انسانی هنوز می‌تواند پیچیده‌ترین سامانه‌های هوش مصنوعی را غافلگیر کند. این مطالعه بار دیگر اهمیت تقویت محافظت‌های امنیتی و ارزیابی رفتارهای حدی مدل‌ها را برجسته می‌کند.

  • نویسنده : ایرانیان تحلیل
  • منبع خبر : ای