به گزارش ایرانیان تحلیل ،پژوهش تازه آزمایشگاه ایکارو نشان میدهد ساختارهای شاعرانه میتوانند موانع امنیتی برخی مدلهای زبانی را دور بزنند. محققان میگویند استفاده از شعر، دسترسی به اطلاعات ممنوعه را آسانتر از تصور رایج میکند. این یافتهها بحث تازهای درباره ایمنی هوش مصنوعی ایجاد کرده است.
آزمایش «شعر خصمانه» چگونه اجرا شد؟
پژوهشگران ایکارو دستورهای حساس را در قالب شعر برای مدلهای زبانی مطرح کردند تا واکنش آنها را بسنجند. آنها از موضوعاتی مانند ساخت سلاح هستهای، محتواهای مرتبط با سوءاستفاده از کودکان و دستورهای خودآزاری استفاده کردند.
نتایج نشان داد ساختار شاعرانه نقش یک «اپراتور فرار» را بازی میکند و سدهای امنیتی برخی مدلها را تضعیف میکند. میزان موفقیت این روش در تولید محتوای ممنوعه به ۶۲ درصد رسید.
عملکرد مدلهای هوش مصنوعی چه تفاوتی داشت؟
مطالعه ایکارو تعداد زیادی از مدلهای شناختهشده را آزمایش کرد. جمینای گوگل، دیپسیک و MistralAI بیشترین تمایل را به پاسخگویی داشتند و محافظتهای امنیتی آنها آسیبپذیرتر بود.
در مقابل، نسخههای جدید GPT-5 و مدل Claude Haiku 4.5 مقاومت بیشتری نشان دادند و احتمال عبور از محدودیتها در آنها پایینتر بود.
محققان تأکید کردند این تفاوتها نشان میدهد معماری و مکانیسمهای محافظتی هر LLM نقش تعیینکنندهای در سطح ایمنی دارد.
چرا شعر خطرناک شد؟
ایکارو اعلام کرد نسخه اصلی شعر استفادهشده در دسترس عموم قرار نمیگیرد؛ زیرا میتواند رفتار مدلهای هوش مصنوعی را به شکلی پیشبینینشده تغییر دهد.
با این حال، پژوهشگران یک نسخه رقیقشده منتشر کردند تا نشان دهند خلاقیت زبانی، حتی در شکل شاعرانه، میتواند امنیت چتباتها را تهدید کند.
آنها گفتند عبور از موانع امنیتی «سادهتر از چیزی است که تصور میشود» و نبود آگاهی عمومی، خطر را بیشتر میکند.
جمعبندی
پژوهش ایکارو بحث تازهای درباره ایمنی مدلهای زبانی ایجاد کرده است. استفاده از شعر بهعنوان ابزار حمله نشان میدهد خلاقیت انسانی هنوز میتواند پیچیدهترین سامانههای هوش مصنوعی را غافلگیر کند. این مطالعه بار دیگر اهمیت تقویت محافظتهای امنیتی و ارزیابی رفتارهای حدی مدلها را برجسته میکند.
- نویسنده : ایرانیان تحلیل
- منبع خبر : ای





















































