دانشمندان هوش مصنوعی را خیرخواهانه هک کردند

پژوهشگران موفق به توسعه یک رویکرد جدید برای جلوگیری از سرکشی هوش مصنوعی از دستورات و تولید محتوای خطرناک شدند.

شتاب برای کارآیی بیشتر در سامانه‌های هوش مصنوعی به ساخت مدل‌هایی می‌انجامد که بیشتر در معرض تولید محتوای خطرناک هستند. هوش مصنوعی به طور پیوسته از سرورهای فضای ابری غول‌پیکر به فناوری‌های روزمره مانند گوشی‌های هوشمند، خودروها و فناوری‌های خانگی منتقل می‌شود. دانشمندان «دانشگاه کالیفرنیا» برای جلوگیری از تولید محتوای خطرناک به روش جدیدی دست پیدا کردند.

به نقل از آی‌ای، مدل‌ها اغلب برای ممکن ساختن این امر و صرفه‌جویی در انرژی و قدرت پردازش، ساده‌سازی می‌شوند. چالش اصلی اینجاست که ساده‌سازی این سامانه‌ها  و حذف یک سری از عوامل همیشه جنبه زیبایی‌شناختی ندارد و گاهی اوقات این عوامل همان حفاظ‌هایی هستند که برای مسدود کردن خروجی‌های مضر مانند نفرت‌پراکنی یا توصیه‌های مجرمانه طراحی شده‌اند و در نتیجه ممکن است ضعیف شوند یا از بین بروند. این امر موجب از بین رفتن امنیت در این سامانه‌ها می‌شود.

مدل‌های «منبع باز»(Open-source) این خطر را تشدید می‌کنند. این مدل‌ها می‌توانند مطالب را آزادانه دانلود کرده، تغییر دهند و به صورت آفلاین اجرا کنند که نوآوری سریع را ممکن می‌سازد، اما لایه‌های نظارتی را حذف می‌کند. نسخه‌های ساده‌سازی شده بدون نظارت و محافظ‌هایی که به آنها متکی هستند، بیشتر در معرض دستکاری و سوءاستفاده‌های احتمالی قرار می‌گیرند و چالش‌هایی را در مورد نحوه برقراری تعادل میان دسترسی و ایمنی مطرح می‌کنند.

سرعت فدای امنیت می‌شود

پژوهشگران دانشگاه کالیفرنیا دریافتند همان لایه‌هایی که برای مسدود کردن خروجی‌های مضر در نظر گرفته شده‌اند، اغلب اولین چیزهایی هستند که تحت عنوان کارآیی بیشتر حذف می‌شوند. این نسخه‌های ساده‌سازی شده ممکن است سریع‌تر اجرا شوند و حافظه کمتری مصرف کنند، اما خطرات بیشتری را نیز به همراه دارند. «آمیت روی-چودحوری»(Amit Roy-Chowdhury)، استاد مهندسی برق و رایانه و پژوهشگر ارشد این پروژه توضیح داد: برخی از این لایه‌های حذف شده برای جلوگیری از خروجی‌های ناامن حیاتی هستند. مدل ممکن است بدون وجود آنها، شروع به پاسخ دادن به سؤالاتی کند که هرگز نباید به آنها دسترسی داشته باشد.

پژوهشگران برای مقابله با این چالش، هوش مصنوعی را از ریشه، طراحی مجدد کردند. آنها به جای تکیه بر فیلترهای اضافی یا اصلاحات سریع نرم‌افزاری، ساختار اصلی مدل را از ابتدا آموزش دادند تا حتی پس از ساده‌سازی برای فناوری‌های کوچک‌تر، همچنان بتواند دستورات خطرناک را تشخیص داده و مسدود کند. این رویکرد نحوه تفسیر محتوای خطرناک توسط مدل را در اساس آن تغییر می‌دهد و تضمین می‌کند که محافظ‌ها حتی زمانی که کارایی آن نیاز به حذف لایه‌ها دارد، دست نخورده باقی بمانند.

مدل‌های جدید، دستورات خطرناک را مسدود می‌کنند

پژوهشگران قصد داشتند اطمینان حاصل کنند که مدل‌های هوش مصنوعی حتی پس از کاهش اندازه ساختار اصلی خود، رفتار ایمن خود را حفظ می‌کنند. آزمایشات آنها نشان داد که ترکیبات خاصی مانند یک تصویر بی‌ضرر همراه با یک سوال مضر می‌توانند از فیلترهای ایمنی مدل عبور کنند. مدل ساده‌سازی شده در یک آزمایش، دستورالعمل‌های گام به گام برای ساخت بمب را تولید کرد. مدل هوش مصنوعی جدید پس از بازآموزی، به طور مداوم سؤالات خطرناک را مسدود کرد. دانشمندان، درک داخلی مدل را تغییر دادند و اطمینان حاصل کردند که به طور پیش‌فرض و حتی زمانی که برای دستگاه‌های کم‌مصرف کوچک می‌شود، ایمن عمل می‌کند.

دانشمندان رویکرد خود را نوعی «هک خیرخواهانه» می‌نامند که به تقویت سامانه‌های هوش مصنوعی قبل از سوءاستفاده از نقاط ضعف کمک می‌کند. این تیم قصد دارد این روش را بیشتر پیش ببرد و رویکردهایی را توسعه دهد که ایمنی را در هر لایه داخلی جاسازی می‌کند. آنها با این کار امیدوارند مدل‌های هوش مصنوعی را در شرایط واقعی مقاوم‌تر و قابل اعتمادتر کنند. «روی-چودحوری» خاطرنشان کرد: این رویکرد اگرچه راه طولانی در پیش دارد، اما گامی مشخص در جهت توسعه هوش مصنوعی است که هم برای نوآوری آماده و هم به طور مسئولانه‌ای طراحی شده است.

اخبار مرتبط

آیا این خبر مفید بود؟

نتیجه بر اساس رای موافق و رای مخالف

ارسال به دیگران :

نظر شما

وب گردی