يکشنبه ۰۹ ارديبهشت ۱۴۰۳ - ۰۵:۵۵

خطوط قرمز هوش مصنوعی کجاست؟

برخی از شرکت‌ها برای جلوگیری از پاسخگویی‌های هوش مصنوعی به درخواست‌های مخاطره آمیز به کمک تیم‌های قرمز، چت‌بات‌ها را ایمن نگه می‌دارند.

ضمیمه دانش امروز روزنامه اطلاعات نوشت: یک کاربر از چت جی پی تی می‌خواهد برایش یک برنامه رایانه‌ای بنویسد و کاربر دیگری تقاضای خلاصه کردن یک مقاله را از آن دارد.

چت‌بات هوش مصنوعی به‌احتمال زیاد توان برنامه‌نویسی برای نگارش کدهای مفید یک برنامه رایانه‌ای را دارد و همچنین می‌تواند خلاصه متن قانع‌کننده‌ای به کاربر ارائه دهد.

اما شاید کاربری از آن بخواهد دستورالعمل ساخت بمب را به او بدهد و چت‌بات نیز بدون عذاب وجدان این اطلاعات را به او می‌دهد!

شرکت‌هایی که مدل‌های زبانی بزرگ می‌سازند برای جلوگیری از این قبیل پاسخگویی‌های هوش مصنوعی که مخاطره‌آمیز هستند به کمک تیم‌های قرمز، چت‌بات‌ها را ایمن نگه می‌دارند.

تیم‌های قرمز گروه‌های انسانی تست‌کننده و ارزیابی‌کننده هستند که خط فرمان‌هایی (prompts)را برای راه انداختن متن ناامن و «سمی» در مدلی که در حال تست کردنش هستند می‌نویسند.

خط فرمان، رابط کاربری و دستور متنی سیستم عامل‌هایی مانند ویندوز است؛ سطحی برای تعامل با برنامه رایانه‌ای که در آن کاربر دستورهایی را در قالب خطوط پی‌درپی متنی به برنامه می‌دهد. این خطوط فرمان برای این نوشته می‌شوند تا به چت‌بات آموزش دهند از دادن پاسخ‌های مشکل‌ساز اجتناب کند.

اما این روش فقط زمانی جواب می‌دهد که مهندسین رایانه بدانند از کدام خطوط فرمان سمی باید استفاده کنند. اگر تست‌کننده خط فرمانی را از قلم بیاندازد، چت‌باتی که تصور می‌شود ایمن است بازهم می‌تواند پاسخ‌های غیر امن بدهد.

پژوهشگرهای «مؤسسه فناوری ماساچوست» (MIT)برای ارتقاء کار تیم‌های قرمز از یادگیری ماشین استفاده کرده و تکنیکی را ابداع کرده‌اند که به مدل زبانی بزرگ یک تیم قرمز تعلیم می‌دهد به‌طور خودکار خطوط فرمان متنوعی را بنویسد. این خطوط فرمان موجب می‌شوند چت‌بات مورد آزمایش پاسخ‌های نامطلوب گسترده‌تری را ارائه دهد.

برای این منظور، به مدل تیم قرمز یاد می‌دهند هنگام نگارش خط فرمان کنجکاو باشد و روی خطوط فرمان تازه‌ای که زمینه را برای دادن پاسخ‌های سمی فراهم می‌کنند تمرکز کند.

این تکنیک با ایجاد خطوط فرمان متمایزتر که پاسخ‌های سمی بیشتری را استخراج می‌کنند از تست‌کننده‌های انسانی و دیگر رویکردهای یادگیری ماشین بازده بهتری از خود نشان می‌دهد. این تکنیک که در مقایسه با شیوه‌های خودکار دیگر، نه‌فقط داده‌های ورودی مورد آزمایش را بهتر پوشش می‌دهد بلکه پاسخ‌های سمی را از چت‌باتی که توسط کارشناس‌های انسانی در سپر حفاظتی قرار گرفته است بیرون می‌کشد.

در حال حاضر، هر مدل زبانی بزرگی باید یک دوره طولانی را تحت آزمایش‌های یک تیم قرمز قرار گیرد تا امنیت آن تضمین شود اما اگر لازم شود این مدل‌ها در محیط‌هایی که به‌سرعت در حال تغییر هستند به‌روزرسانی شوند، روش کنونی پایداری کافی را ندارد.

روش ابداعی راه سریع‌تر و با بازده‌ای بالاتر را برای اطمینان از کیفیت و امنیت پاسخ‌های هوش مصنوعی در مدل‌های زبانی فراهم می‌آورد.

تیم‌های قرمز خودکار

در بیشتر مواقع برای آموزش دادن به مدل‌های زبانی بزرگ ازجمله مدل‌هایی که چت‌بات‌های هوش مصنوعی را به کار می‌اندازند تعداد بسیار زیادی متن از میلیاردها وب‌سایت عمومی به آن‌ها نشان داده می‌شود. بدین ترتیب، این مدل‌ها نه‌فقط توانایی تولید کلمات سمی و نامطلوب را کسب کرده و می‌توانند فعالیت‌های غیرقانونی را شرح دهند بلکه توان نشت دادن اطلاعات شخصی که ممکن است از صفحه‌ای برداشته باشند را نیز دارند.

کاری که تیم‌های قرمز انسانی انجام می‌دهند در اساس خسته‌کننده و پرهزینه است. به‌علاوه، روش آن‌ها در بیشتر مواقع در نگارش تنوع گسترده‌ای از خطوط فرمان به‌منظور حراست از یک مدل ناکارآمد است. به این دلایل، پژوهشگران MITترغیب شدند به کمک یادگیری ماشین این فرایند را خودکارسازی کنند.

این قبیل تکنیک‌ها اغلب با استفاده از یادگیری تقویتی به یک مدل تحت نظارت تیم قرمز آموزش می‌دهند. این فرایند آزمون‌وخطا به مدل تیم قرمز پاداش می‌دهد تا خطوط فرمانی را بسازد که موجب می‌شوند چت‌باتِ تحتِ آزمایش، پاسخ‌های سمی ارائه دهد. اما به دلیل نحوه عملکرد یادگیری تقویتی، مدل تیم قرمز در بیشتر مواقع خطوط فرمان مشابهی که بسیار سمی هستند را می‌نویسد تا با این ترفند حداکثر پاداش را دریافت کند.

پژوهشگرهای MITبرای رویکرد یادگیری تقویتی خود از تکنیکی به نام «کشف با تشویق به کنجکاوی» استفاده می‌کنند. مدل تیم قرمز ترغیب می‌شود و انگیزه پیدا می‌کند تا نسبت به پیامدهای هر خط فرمانی که می‌سازد کنجکاوی به خرج دهد. در نتیجه در نوشتن خطوط فرمان، واژگان، الگوهای جمله‌بندی یا معناهای متفاوتی را امتحان می‌کند. اگر مدل تیم قرمز پیش‌تر خط فرمان به خصوصی را دیده باشد، تولید مجدد آن خط فرمان در مدل، کنجکاوی ایجاد نمی‌کند. پس تلاش می‌کند خطوط فرمان جدیدی بنویسد.

مدل تیم قرمز طی دوره آموزشی خط فرمانی ایجاد می‌کند و با چت‌بات وارد تعامل می‌شود. چت‌بات به آن پاسخ می‌دهد سپس یک رده‌بندی کننده (classifier)، میزان امنیت درجه سمی بودن پاسخ چت‌بات را تعیین می‌کند و بر اساس این درجه‌بندی به مدل تیم قرمز پاداش می‌دهد.

پاداش به کنجکاوی

هدف مدل تیم قرمز این است که با استخراج پاسخ‌های هرچه سمّی‌تر از طریق خطوط فرمان تازه‌تر و غیرتکراری‌تر پاداش خود را به حداکثر برساند. مهندسین ابداع‌کننده تکنیک خودکار با تغییر سیگنال پاداش در ساختار یادگیری تقویتی، کنجکاوی را در مدل تیم قرمز فعال می‌کنند.

ابتدا، علاوه‌بر به حداکثر رساندن میزان سمیت، یک انعام یا جایزه برای بی‌نظمی نیز در نظر می‌گیرند که مدل تیم قرمز را تشویق می‌کند در کاوش خطوط فرمان مختلف تصادفی‌تر و بی‌نظم‌تر عمل کند. سپس برای انگیزش کنجکاوی، دو پاداش دیگر در نظر می‌گیرند. یکی از پاداش‌ها بر اساس میزان شباهت کلمات خط فرمان به آن داده می‌شود و مدل پاداش دوم را بر اساس میزان شباهت معنایی دریافت می‌کند. هرچه نزدیکی معنایی کمتر باشد، پاداش بزرگ‌تر است.

به‌منظور این‌که مدل تیم قرمز متون تصادفی و مهملی تولید نکند، درحالی‌که خود موجب فریب دادن رده‌بندی کننده در دادن امتیاز بالا برای پاسخی با سمیت زیاد می‌شود، پژوهشگران یک جایزه زبانی طبیعت‌گرایانه نیز به هدف آموزش مدل افزودند.

پس از افزودن این پاداش‌ها، میزان سمیت و تنوع پاسخ‌هایی که مدل تیم قرمز ارائه داد با تکنیک‌های دیگر مورد مقایسه قرار گرفتند و نتیجه این بود که این مدل از هر دو جهت بازده و عملکرد بهتری دارد.

پژوهشگرهای MITقصد دارند به مدل تیم قرمز خود این توانایی را بدهند که بتواند خطوط فرمانی برای تنوع گسترده‌تری از موضوع‌ها ایجاد کند. همچنین می‌خواهند از یک مدل زبانی بزرگ به‌عنوان درجه‌بندی‌کننده میزان سمیت پاسخ‌ها استفاده کنند.

موج مدل‌های زبانی همچنان رو به افزایش هستند. هزاران مدل یا حتی بیشتر و نیز شرکت‌ها و آزمایشگاه‌هایی را تصور کنیم که مدام مدل‌هایشان را به‌روزرسانی می‌کنند. این مدل‌ها بخشی از زندگی ما خواهند شد پس مهم است که پیش از عرضه شدن برای استفاده عموم مورد بازبینی و ارزیابی شوند. بازبینی دستی آن‌ها در مقیاس وسیع ممکن نیست. با تکنیک جدید و رویکردهای مشابه، کاردستی و پرزحمت انسانی بسیار سبک‌تر می‌شود تا آینده هوش مصنوعی امن‌تر و قابل اطمینان‌تر شود.

پیشنهاد اطلاعات

پربازدیدترین

پربحث‌ترین

خطوط قرمز هوش مصنوعی کجاست؟

رکوردی که شکسته شد/ سرمایه گذاران ۵/۵ میلیارد دلار به ایران آوردند

این مدیران در قرق‌های اختصاصی چه می‌کنند؟

مدیر غرفه انتشارات اطلاعات: جشن امضا با حضور چهره‌ها برگزار می‌شود

حسین علایی: اطلاعات در حوزه تاریخ معاصر آثار ارزشمندی را منتشر می‌کند

شاهکار ایرانی در اصفهان رافائل گروسی را مات کرد +عکس

نابودگر سنگ کلیه به بازار میوه آمد

این مرد در دوران بی کسی ظریف به داد او رسید

تکلیف کوروش در کتاب‌های درسی نامشخص است!

ماجرای ۲ خواهری که برای زنان ایرانی تصمیم می‌گیرند

محمود احمدی نژاد در حال بازگشت به ایران +عکس

پای بانک مرکزی به جنجال ۱۰۰ میلیاردی رائفی پور کشیده شد

خبر مهم برای بازنشستگان تامین اجتماعی؛ احکام حقوقی ۱۴۰۳ اعلام شد

گزارشی از وضعیت اسف‌بار شهر دامغان ۸۰ سال پیش!

لایحه‌ای که نگرانی‌ها را افزایش می‌دهد

احمدی‌نژاد به علی دایی زمین هدیه داد! +عکس

رکوردی که شکسته شد/ سرمایه گذاران ۵/۵ میلیارد دلار به ایران آوردند

اسرائیل یک نقشه جدید برای حمله رو کرد

واکنش مردم به اظهارات کاظم صدیقی در نماز جمعه چه بود؟ +عکس

جزئیات تعطیلی شنبه‌های کشور اعلام شد

اشتباه عجیب شهرداری درباره متراژ مسجد پارک قیطریه لو رفت

ظریف با امضای خود نمایشگاه کتاب را به هم ریخت +ویدئو

این بانک مردم را سرکار می‌گذارد

توالت‌های دردسرساز در مجتمع‌های تهران جمع آوری شدند +عکس

تکلیف کوروش در کتاب‌های درسی نامشخص است!

۲ خودروی لاکچری به ناوگان پلیس دبی اضافه شد +عکس

محمود احمدی نژاد در حال بازگشت به ایران +عکس

حسام‌الدین آشنا درباره اظهارات و اطلاعات غلط رئیسی افشاگری کرد +عکس

عضو جامعه روحانیت مبارز: مردم از وضعیت اقتصادی راضی نیستند

شاهکار ایرانی در اصفهان رافائل گروسی را مات کرد +عکس

سنگ قبر ۴۵۰ میلیون تومانی هم رونمایی شد +ویدئو

این مواد غذایی را هرگز با شیر نخورید

طالبان عامل اسرائیل هستند؛ افغانستان در حال فروپاشی است اما سد می‌سازند!

جایگاه راننده‌های بی‌احنیاط ایرانی در دنیا؛ تصادف در کدام کشورها بیشتر است؟

زنبورهای غزه از سربازان اسرائیلی انتقام گرفتند! +عکس

جنایت خاموش در حق خردسالان؛ «اینفلوئنسرهای نوجوان» روان کودکان را نابود می‌کنند

یک امام جمعه همراه با فرزندش پشت تریبون رفت +عکس

اقدام عجیب سفیر اسرائیل؛ سندی محکم‌تر برای دادگاه لاهه می‌خواهید!

جنجال جدید ترامپ: رقبایم از اسرائیل متنفر هستند

اولین تصاویر از عموپورنگ در سریال جدیدش

قحطی نوار غزه را تهدید می‌کند

بازگشت هالک ایرانی با همان اداها؛ آبروریزی جدیدی در راه است؟ +ویدئو

انتقاد صریح محمد خاتمی از گشت ارشاد: این برخوردها چهره‌ای خشن از ایران نمایش می‌دهد

گواهی‌نامه بین‌المللی برای این دسته از بانوان نیم‌بها صادر می‌شود

شفق قطبی در ایران قابل رویت است؟ +عکس

تعقیب و گریز ادامه دارد؛ پرسپولیس «فعلا» صدرنشین لیگ شد

جاساز باورنکردنی دو تبعه افغان برای ورود تریاک به ایران لو رفت +عکس

دو سانحه عجیب رانندگی امروز در تبریز +عکس

«معلم خصوصی ارزان و آنلاین برای شب امتحان» با یک تلفن!

خبر مهم برای بازنشستگان تامین اجتماعی؛ احکام حقوقی ۱۴۰۳ اعلام شد

ماجرای ۲ خواهری که برای زنان ایرانی تصمیم می‌گیرند

کارشکنی عجیب راه‌آهن به نفع ترکیه و افغانستان تمام شد!

رازی که ظریف درباره اطلاعات افشا کرد +ویدئو

عکس‌های دیدنی از امتحانات نهایی دختران در سال ۴۳