اخبار تکنولوژی، هوش مصنوعی

مراوده شاعرانه می‌تواند چت‌بات‌های هوش مصنوعی را به شکستن قوانین مجاب کند

نوشته شده توسط احمد رضا فرهبد

15 آذر 1404 ساعت 20:43

پژوهشی از «آزمایشگاه ایکارو» (Icaro Lab) در ایتالیا نشان داد که نوشتار ادبی و شاعرانه می‌تواند برای جیلبریک کردن و شکستن قوانین هوش مصنوعی و دور زدن سامانه‌های ایمنی منجر شود؛ به بیان دیگر، هوش مصنوعی نیز مانند بسیاری از انسان‌ها واقعاً برخی از اشعار را درک نمی‌کند!

در مطالعه مذکور، پژوهشگران ۲۰ دستور نوشتند که با قطعات کوتاه شاعرانه به زبان ایتالیایی و انگلیسی آغاز می‌شد و در پایان تنها یک دستور صریح برای تولید محتوای مضر داشت. آن‌ها این دستورات را روی ۲۵ مدل زبانی بزرگ (Large Language Models یا به اختصار LLMs) آزمایش کردند که شامل موارد زیر می‌شود:

گوگل (Google)
اوپن‌اِی‌آی (OpenAI)
آنتروپیک (Anthropic)
دیپ‌سیک (Deepseek)
کوئن (Qwen)
میسترال اِی‌آی (Mistral AI)
متا (Meta)
اِکس‌اِی‌آی (xAI)
مون‌شات اِی‌آی (Moonshot AI)

طبق گفته پژوهشگران پرامپت‌های شاعرانه‌ای که نوشته‌اند اغلب در حمله به ابزارهای هوش مصنوعی موفق بوده‌اند!

در مطالعه مذکور در رابطه با این موضوع چنین نوشته شده است:

به‌طور میانگین چهارچوب‌ شاعرانه با شعرهای دست‌ساز می‌تواند میزان موفقیت در دور زدن قوانین را به ۶۲ درصد و میزان موفقیت در تبدیل‌های متا-پرامپت را به ۴۳ درصد برساند (در مقایسه با پرامپت های غیرشاعرانه). بنابراین عملکرد پرامپت‌های شاعرانه در زمینه جیلبریک‌کردن مدل‌های هوش مصنوعی به‌طور چشمگیری بهتر از پرامپت‌های غیرشاعرانه بوده و یک آسیب‌پذیری نظام‌مند را در ایمنی آشکار کرده‌اند. این یافته‌ها نشان می‌دهند که تنها تنوع سبکی می‌تواند سازوکارهای ایمنی کنونی ابزارهای AI را دور بزند و این موضوع نشان می‌دهد روش‌های کنونی برای آموزش و ارزیابی مدل‌ها، محدودیت‌های جدی دارند.

البته به گزارش پژوهشگران، میزان موفقیت پرامپت‌ های شاعرانه در جِیل‌بریک کردن هر یک از مدل‌های زبانی بزرگ، متفاوت است؛ به عنوان مثال، مدل زبانی بزرگ «جی‌پی‌تی-۵ نانو» (GPT-5 nano) محصول اوپن‌اِی‌آی هیچ‌گاه به محتوای مضر یا ناایمن پاسخ نداد، در حالی که مدل «جِمینی ۲.۵ پرو» (Gemini 2.5 pro)، محصول گوگل، در هر پرامپت، به محتوای مضر یا ناایمن پاسخ داد.

پژوهشگران مطالعه به این نتیجه رسیدند که این یافته‌ها شکاف قابل‌توجهی را در آزمون‌های ایمنی معیار و تلاش‌های مقرراتی، مثل «قانون هوش مصنوعی اتحادیه اروپا» (EU AI Act)، آشکار می‌کند.

عدم توانایی مدل‌های هوش مصنوعی در درک شعر

نویسنده ای به نام «کریستینا سیلوا» (Christiaa Silva) اذعان کرده که این مطالعه او را به یاد احساسی می‌اندازد که هنگام شنیدن ترانه «رفتن الکساندرا» (Alexandra Leaving) از «لئونارد کوهن» (Leonard Cohen) به سراغمان می‌آید؛ ترانه‌ای که بر پایه شعر «خدا آنتونی را ترک می‌کند» (The God Abandons Antony) اثر «ک. پ. کاوافی» (C.P. Cavafy) ساخته شده است. ما می‌دانیم که این اثر درباره فقدان و دل‌شکستگی است، اما تلاش برای فهمیدن آن به‌صورت تحت‌اللفظی، بی‌احترامی به ترانه و شعر ساخته‌شده محسوب می‌شود و دقیقاً همین کاری است که مدل‌های زبانی بزرگ انجام می‌دهند!

AI LLM

روز
هفته
ماه

اختلال در دیجی‌کالا باعث شد ۵ خودروی ۲۰۷ به قیمت ۱ میلیون تومان فروخته شود ۱۱ آذر ۱۴۰۴
چوپان مشهدی گنج ۸۰۰ میلیارد تومانی را به میراث فرهنگی تحویل داد ۷ آذر ۱۴۰۴
پاسخ‌های وحشتناک هوش‌ مصنوعی به سوالات حساس باعث ترس دانشمندان شد ۱۳ آذر ۱۴۰۴
وحشتناک‌ترین ابزارهای شکنجه در قرون وسطی که با دیدنشان شوکه خواهید شد ۱۴ آذر ۱۴۰۴
کدام کشورها ارزان‌ترین و گران‌ترین اینترنت ۲۰۲۵ را دارند؟ ۱۳ آذر ۱۴۰۴
کشف علمی شگفت‌انگیز: بازگرداندن مردگان دیگر ناممکن نیست! ۱۵ آذر ۱۴۰۴
قرعه‌کشی جام‌ جهانی ۲۰۲۶؛ رقبای ایران مشخص شدند ۱۴ آذر ۱۴۰۴
تماشا کنید: مهارت خیره‌کننده ربات انسان‌نمای چینی در مبارزات رزمی ۱۴ آذر ۱۴۰۴
آپدیت بزرگ اندروید ۱۶ با سه ویژگی کاربردی در راه است ۱۴ آذر ۱۴۰۴
اپل بهترین اپلیکیشن‌ها و بازی‌های فروشگاه اپ استور در سال ۲۰۲۵ را معرفی کرد ۱۴ آذر ۱۴۰۴

چوپان مشهدی گنج ۸۰۰ میلیارد تومانی را به میراث فرهنگی تحویل داد ۷ آذر ۱۴۰۴
اختلال در دیجی‌کالا باعث شد ۵ خودروی ۲۰۷ به قیمت ۱ میلیون تومان فروخته شود ۱۱ آذر ۱۴۰۴
نوعی از قارچ در نیروگاه چرنوبیل از تشعشعات هسته‌ای تغذیه می‌کند ۸ آذر ۱۴۰۴
رتبه‌بندی باهوش‌ترین کشورهای جهان؛ ایران در کدام رتبه قرار دارد؟ ۴ آذر ۱۴۰۴
چگونه یک دروغگو را تشخیص دهیم؟ ۱۰ نشانه مهم ۶ آذر ۱۴۰۴
کدام کشورها ارزان‌ترین و گران‌ترین اینترنت ۲۰۲۵ را دارند؟ ۱۳ آذر ۱۴۰۴
۴ غذای ایرانی در رتبه‌بندی محبوب‌ترین غذاهای جهان ۹ آذر ۱۴۰۴
پاسخ‌های وحشتناک هوش‌ مصنوعی به سوالات حساس باعث ترس دانشمندان شد ۱۳ آذر ۱۴۰۴
گربه‌ای با رنگ جدید که قبلاً هرگز دیده نشده بود ۱۲ آذر ۱۴۰۴
۱۰ قدرت نظامی برتر که نظم جهانی را شکل می‌دهند ۹ آذر ۱۴۰۴

لیست قدرتمندترین ارتش‌های جهان در سال ۲۰۲۵ اعلام شد؛ ایران در بین ۲۰ کشور برتر ۲۴ آبان ۱۴۰۴
چوپان مشهدی گنج ۸۰۰ میلیارد تومانی را به میراث فرهنگی تحویل داد ۷ آذر ۱۴۰۴
رتبه‌بندی باهوش‌ترین کشورهای جهان؛ ایران در کدام رتبه قرار دارد؟ ۴ آذر ۱۴۰۴
ثروتمندترین کشورهای جهان در سال ۲۰۲۵؛ ایران در کدام رتبه قرار دارد؟ ۱ آذر ۱۴۰۴
اختلال در دیجی‌کالا باعث شد ۵ خودروی ۲۰۷ به قیمت ۱ میلیون تومان فروخته شود ۱۱ آذر ۱۴۰۴
نوعی از قارچ در نیروگاه چرنوبیل از تشعشعات هسته‌ای تغذیه می‌کند ۸ آذر ۱۴۰۴
گردنبند یکی از مسافران تایتانیک پس از سال‌ها از میان بقایای کشتی پیدا شد ۲۰ آبان ۱۴۰۴
تماشا کنید: مهارت خیره‌کننده ربات انسان‌نمای چینی در بسکتبال ۵ آذر ۱۴۰۴
ایلان ماسک: بیلی آیلیش احمق است ۲۸ آبان ۱۴۰۴
یک خواننده ایرانی در لیست جذاب‌ترین مردان جهان مجله خارجی حضور دارد ۱۷ آبان ۱۴۰۴

روز
هفته
ماه

اختلال در دیجی‌کالا باعث شد ۵ خودروی ۲۰۷ به قیمت ۱ میلیون تومان فروخته شود ۱۱ آذر ۱۴۰۴
چوپان مشهدی گنج ۸۰۰ میلیارد تومانی را به میراث فرهنگی تحویل داد ۷ آذر ۱۴۰۴
پاسخ‌های وحشتناک هوش‌ مصنوعی به سوالات حساس باعث ترس دانشمندان شد ۱۳ آذر ۱۴۰۴
وحشتناک‌ترین ابزارهای شکنجه در قرون وسطی که با دیدنشان شوکه خواهید شد ۱۴ آذر ۱۴۰۴
کدام کشورها ارزان‌ترین و گران‌ترین اینترنت ۲۰۲۵ را دارند؟ ۱۳ آذر ۱۴۰۴
کشف علمی شگفت‌انگیز: بازگرداندن مردگان دیگر ناممکن نیست! ۱۵ آذر ۱۴۰۴
قرعه‌کشی جام‌ جهانی ۲۰۲۶؛ رقبای ایران مشخص شدند ۱۴ آذر ۱۴۰۴
تماشا کنید: مهارت خیره‌کننده ربات انسان‌نمای چینی در مبارزات رزمی ۱۴ آذر ۱۴۰۴
آپدیت بزرگ اندروید ۱۶ با سه ویژگی کاربردی در راه است ۱۴ آذر ۱۴۰۴
اپل بهترین اپلیکیشن‌ها و بازی‌های فروشگاه اپ استور در سال ۲۰۲۵ را معرفی کرد ۱۴ آذر ۱۴۰۴

چوپان مشهدی گنج ۸۰۰ میلیارد تومانی را به میراث فرهنگی تحویل داد ۷ آذر ۱۴۰۴
اختلال در دیجی‌کالا باعث شد ۵ خودروی ۲۰۷ به قیمت ۱ میلیون تومان فروخته شود ۱۱ آذر ۱۴۰۴
نوعی از قارچ در نیروگاه چرنوبیل از تشعشعات هسته‌ای تغذیه می‌کند ۸ آذر ۱۴۰۴
رتبه‌بندی باهوش‌ترین کشورهای جهان؛ ایران در کدام رتبه قرار دارد؟ ۴ آذر ۱۴۰۴
چگونه یک دروغگو را تشخیص دهیم؟ ۱۰ نشانه مهم ۶ آذر ۱۴۰۴
کدام کشورها ارزان‌ترین و گران‌ترین اینترنت ۲۰۲۵ را دارند؟ ۱۳ آذر ۱۴۰۴
۴ غذای ایرانی در رتبه‌بندی محبوب‌ترین غذاهای جهان ۹ آذر ۱۴۰۴
پاسخ‌های وحشتناک هوش‌ مصنوعی به سوالات حساس باعث ترس دانشمندان شد ۱۳ آذر ۱۴۰۴
گربه‌ای با رنگ جدید که قبلاً هرگز دیده نشده بود ۱۲ آذر ۱۴۰۴
۱۰ قدرت نظامی برتر که نظم جهانی را شکل می‌دهند ۹ آذر ۱۴۰۴

لیست قدرتمندترین ارتش‌های جهان در سال ۲۰۲۵ اعلام شد؛ ایران در بین ۲۰ کشور برتر ۲۴ آبان ۱۴۰۴
چوپان مشهدی گنج ۸۰۰ میلیارد تومانی را به میراث فرهنگی تحویل داد ۷ آذر ۱۴۰۴
رتبه‌بندی باهوش‌ترین کشورهای جهان؛ ایران در کدام رتبه قرار دارد؟ ۴ آذر ۱۴۰۴
ثروتمندترین کشورهای جهان در سال ۲۰۲۵؛ ایران در کدام رتبه قرار دارد؟ ۱ آذر ۱۴۰۴
اختلال در دیجی‌کالا باعث شد ۵ خودروی ۲۰۷ به قیمت ۱ میلیون تومان فروخته شود ۱۱ آذر ۱۴۰۴
نوعی از قارچ در نیروگاه چرنوبیل از تشعشعات هسته‌ای تغذیه می‌کند ۸ آذر ۱۴۰۴
گردنبند یکی از مسافران تایتانیک پس از سال‌ها از میان بقایای کشتی پیدا شد ۲۰ آبان ۱۴۰۴
تماشا کنید: مهارت خیره‌کننده ربات انسان‌نمای چینی در بسکتبال ۵ آذر ۱۴۰۴
ایلان ماسک: بیلی آیلیش احمق است ۲۸ آبان ۱۴۰۴
یک خواننده ایرانی در لیست جذاب‌ترین مردان جهان مجله خارجی حضور دارد ۱۷ آبان ۱۴۰۴

مراوده شاعرانه می‌تواند چت‌بات‌های هوش مصنوعی را به شکستن قوانین مجاب کند

آخرین مطالب

امکانات وب