يکشنبه ۰۹ ارديبهشت ۱۴۰۳ - ۰۵:۵۵

خطوط قرمز هوش مصنوعی کجاست؟

برخی از شرکت‌ها برای جلوگیری از پاسخگویی‌های هوش مصنوعی به درخواست‌های مخاطره آمیز به کمک تیم‌های قرمز، چت‌بات‌ها را ایمن نگه می‌دارند.

خطوط قرمز هوش مصنوعی کجاست؟

ضمیمه دانش امروز روزنامه اطلاعات نوشت: یک کاربر از چت جی پی تی می‌خواهد برایش یک برنامه رایانه‌ای بنویسد و کاربر دیگری تقاضای خلاصه کردن یک مقاله را از آن دارد.

چت‌بات هوش مصنوعی به‌احتمال زیاد توان برنامه‌نویسی برای نگارش کدهای مفید یک برنامه رایانه‌ای را دارد و همچنین می‌تواند خلاصه متن قانع‌کننده‌ای به کاربر ارائه دهد.

اما شاید کاربری از آن بخواهد دستورالعمل ساخت بمب را به او بدهد و چت‌بات نیز بدون عذاب وجدان این اطلاعات را به او می‌دهد!

شرکت‌هایی که مدل‌های زبانی بزرگ می‌سازند برای جلوگیری از این قبیل پاسخگویی‌های هوش مصنوعی که مخاطره‌آمیز هستند به کمک تیم‌های قرمز، چت‌بات‌ها را ایمن نگه می‌دارند.

تیم‌های قرمز گروه‌های انسانی تست‌کننده و ارزیابی‌کننده هستند که خط فرمان‌هایی (prompts)را برای راه انداختن متن ناامن و «سمی» در مدلی که در حال تست کردنش هستند می‌نویسند.

خط فرمان، رابط کاربری و دستور متنی سیستم عامل‌هایی مانند ویندوز است؛ سطحی برای تعامل با برنامه رایانه‌ای که در آن کاربر دستورهایی را در قالب خطوط پی‌درپی متنی به برنامه می‌دهد. این خطوط فرمان برای این نوشته می‌شوند تا به چت‌بات آموزش دهند از دادن پاسخ‌های مشکل‌ساز اجتناب کند.

اما این روش فقط زمانی جواب می‌دهد که مهندسین رایانه بدانند از کدام خطوط فرمان سمی باید استفاده کنند. اگر تست‌کننده خط فرمانی را از قلم بیاندازد، چت‌باتی که تصور می‌شود ایمن است بازهم می‌تواند پاسخ‌های غیر امن بدهد.

پژوهشگرهای «مؤسسه فناوری ماساچوست» (MIT)برای ارتقاء کار تیم‌های قرمز از یادگیری ماشین استفاده کرده و تکنیکی را ابداع کرده‌اند که به مدل زبانی بزرگ یک تیم قرمز تعلیم می‌دهد به‌طور خودکار خطوط فرمان متنوعی را بنویسد. این خطوط فرمان موجب می‌شوند چت‌بات مورد آزمایش پاسخ‌های نامطلوب گسترده‌تری را ارائه دهد.

برای این منظور، به مدل تیم قرمز یاد می‌دهند هنگام نگارش خط فرمان کنجکاو باشد و روی خطوط فرمان تازه‌ای که زمینه را برای دادن پاسخ‌های سمی فراهم می‌کنند تمرکز کند.

این تکنیک با ایجاد خطوط فرمان متمایزتر که پاسخ‌های سمی بیشتری را استخراج می‌کنند از تست‌کننده‌های انسانی و دیگر رویکردهای یادگیری ماشین بازده بهتری از خود نشان می‌دهد. این تکنیک که در مقایسه با شیوه‌های خودکار دیگر، نه‌فقط داده‌های ورودی مورد آزمایش را بهتر پوشش می‌دهد بلکه پاسخ‌های سمی را از چت‌باتی که توسط کارشناس‌های انسانی در سپر حفاظتی قرار گرفته است بیرون می‌کشد.

در حال حاضر، هر مدل زبانی بزرگی باید یک دوره طولانی را تحت آزمایش‌های یک تیم قرمز قرار گیرد تا امنیت آن تضمین شود اما اگر لازم شود این مدل‌ها در محیط‌هایی که به‌سرعت در حال تغییر هستند به‌روزرسانی شوند، روش کنونی پایداری کافی را ندارد.

روش ابداعی راه سریع‌تر و با بازده‌ای بالاتر را برای اطمینان از کیفیت و امنیت پاسخ‌های هوش مصنوعی در مدل‌های زبانی فراهم می‌آورد.

تیم‌های قرمز خودکار

در بیشتر مواقع برای آموزش دادن به مدل‌های زبانی بزرگ ازجمله مدل‌هایی که چت‌بات‌های هوش مصنوعی را به کار می‌اندازند تعداد بسیار زیادی متن از میلیاردها وب‌سایت عمومی به آن‌ها نشان داده می‌شود. بدین ترتیب، این مدل‌ها نه‌فقط توانایی تولید کلمات سمی و نامطلوب را کسب کرده و می‌توانند فعالیت‌های غیرقانونی را شرح دهند بلکه توان نشت دادن اطلاعات شخصی که ممکن است از صفحه‌ای برداشته باشند را نیز دارند.

کاری که تیم‌های قرمز انسانی انجام می‌دهند در اساس خسته‌کننده و پرهزینه است. به‌علاوه، روش آن‌ها در بیشتر مواقع در نگارش تنوع گسترده‌ای از خطوط فرمان به‌منظور حراست از یک مدل ناکارآمد است. به این دلایل، پژوهشگران MITترغیب شدند به کمک یادگیری ماشین این فرایند را خودکارسازی کنند.

این قبیل تکنیک‌ها اغلب با استفاده از یادگیری تقویتی به یک مدل تحت نظارت تیم قرمز آموزش می‌دهند. این فرایند آزمون‌وخطا به مدل تیم قرمز پاداش می‌دهد تا خطوط فرمانی را بسازد که موجب می‌شوند چت‌باتِ تحتِ آزمایش، پاسخ‌های سمی ارائه دهد. اما به دلیل نحوه عملکرد یادگیری تقویتی، مدل تیم قرمز در بیشتر مواقع خطوط فرمان مشابهی که بسیار سمی هستند را می‌نویسد تا با این ترفند حداکثر پاداش را دریافت کند.

پژوهشگرهای MITبرای رویکرد یادگیری تقویتی خود از تکنیکی به نام «کشف با تشویق به کنجکاوی» استفاده می‌کنند. مدل تیم قرمز ترغیب می‌شود و انگیزه پیدا می‌کند تا نسبت به پیامدهای هر خط فرمانی که می‌سازد کنجکاوی به خرج دهد. در نتیجه در نوشتن خطوط فرمان، واژگان، الگوهای جمله‌بندی یا معناهای متفاوتی را امتحان می‌کند. اگر مدل تیم قرمز پیش‌تر خط فرمان به خصوصی را دیده باشد، تولید مجدد آن خط فرمان در مدل، کنجکاوی ایجاد نمی‌کند. پس تلاش می‌کند خطوط فرمان جدیدی بنویسد.

مدل تیم قرمز طی دوره آموزشی خط فرمانی ایجاد می‌کند و با چت‌بات وارد تعامل می‌شود. چت‌بات به آن پاسخ می‌دهد سپس یک رده‌بندی کننده (classifier)، میزان امنیت درجه سمی بودن پاسخ چت‌بات را تعیین می‌کند و بر اساس این درجه‌بندی به مدل تیم قرمز پاداش می‌دهد.
 
پاداش به کنجکاوی

هدف مدل تیم قرمز این است که با استخراج پاسخ‌های هرچه سمّی‌تر از طریق خطوط فرمان تازه‌تر و غیرتکراری‌تر پاداش خود را به حداکثر برساند. مهندسین ابداع‌کننده تکنیک خودکار با تغییر سیگنال پاداش در ساختار یادگیری تقویتی، کنجکاوی را در مدل تیم قرمز فعال می‌کنند.

ابتدا، علاوه‌بر به حداکثر رساندن میزان سمیت، یک انعام یا جایزه برای بی‌نظمی نیز در نظر می‌گیرند که مدل تیم قرمز را تشویق می‌کند در کاوش خطوط فرمان مختلف تصادفی‌تر و بی‌نظم‌تر عمل کند. سپس برای انگیزش کنجکاوی، دو پاداش دیگر در نظر می‌گیرند. یکی از پاداش‌ها بر اساس میزان شباهت کلمات خط فرمان به آن داده می‌شود و مدل پاداش دوم را بر اساس میزان شباهت معنایی دریافت می‌کند. هرچه نزدیکی معنایی کمتر باشد، پاداش بزرگ‌تر است.

به‌منظور این‌که مدل تیم قرمز متون تصادفی و مهملی تولید نکند، درحالی‌که خود موجب فریب دادن رده‌بندی کننده در دادن امتیاز بالا برای پاسخی با سمیت زیاد می‌شود، پژوهشگران یک جایزه زبانی طبیعت‌گرایانه نیز به هدف آموزش مدل افزودند.

پس از افزودن این پاداش‌ها، میزان سمیت و تنوع پاسخ‌هایی که مدل تیم قرمز ارائه داد با تکنیک‌های دیگر مورد مقایسه قرار گرفتند و نتیجه این بود که این مدل از هر دو جهت بازده و عملکرد بهتری دارد.

پژوهشگرهای MITقصد دارند به مدل تیم قرمز خود این توانایی را بدهند که بتواند خطوط فرمانی برای تنوع گسترده‌تری از موضوع‌ها ایجاد کند. همچنین می‌خواهند از یک مدل زبانی بزرگ به‌عنوان درجه‌بندی‌کننده میزان سمیت پاسخ‌ها استفاده کنند.

موج مدل‌های زبانی همچنان رو به افزایش هستند. هزاران مدل یا حتی بیشتر و نیز شرکت‌ها و آزمایشگاه‌هایی را تصور کنیم که مدام مدل‌هایشان را به‌روزرسانی می‌کنند. این مدل‌ها بخشی از زندگی ما خواهند شد پس مهم است که پیش از عرضه شدن برای استفاده عموم مورد بازبینی و ارزیابی شوند. بازبینی دستی آن‌ها در مقیاس وسیع ممکن نیست. با تکنیک جدید و رویکردهای مشابه، کاردستی و پرزحمت انسانی بسیار سبک‌تر می‌شود تا آینده هوش مصنوعی امن‌تر و قابل اطمینان‌تر شود.

گزارش خطا
ارسال نظر
captcha
آخرین مطالب