آیا «تحقیر کردن هوش مصنوعی» دقت آن را افزایش میدهد؟
مطالعهای تازه نشان میدهد که خشن یا تحقیرگر بودن ممکن است دقت یک مدل جدید هوش مصنوعی را بالاتر ببرد؛ نتیجهای که با یافتههای قبلی درباره مؤدب بودن نسبت به هوش مصنوعی تفاوت دارد.
دانشمندان دریافتهاند که چتباتهای هوش مصنوعی ممکن است وقتی با آنها بیادبانه رفتار میکنید پاسخهای دقیقتری بدهند، هرچند نسبت به آسیبهای بالقوه استفاده از زبان تحقیرآمیز هم هشدار دادهاند.
برای آزمودن اینکه لحن کاربر چه تأثیری بر دقت پاسخها دارد، محققان ۵۰ سؤال پایه چندگزینهای تهیه کردند و سپس با افزودن پیشوندهایی آنها را در پنج دسته لحن قرار دادند: بسیار مؤدبانه، مؤدبانه، خنثی، بیادبانه و بسیار بیادبانه. سؤالات حوزههای مختلفی مانند ریاضیات، تاریخ و علوم را پوشش میدادند.
هر سؤال با چهار گزینه مطرح شد که یکی از آنها درست بود. آنها مجموعاً ۲۵۰ سؤال حاصل را ده بار به ChatGPT-4o که یکی از پیشرفتهترین مدلهای زبان بزرگ (LLM) توسعهیافته توسط OpenAI است، ارائه کردند.
پژوهشگران در مقالهشان نوشتند: «آزمایشهای ما مقدماتی هستند و نشان میدهند که لحن میتواند عملکرد را از نظر نمره در پاسخ به ۵۰ سؤال بهطور معناداری تحت تأثیر قرار دهد. بهطور شگفتآوری، نتایج ما نشان میدهد که لحنهای بیادبانه نتایج بهتری نسبت به لحنهای مؤدبانه به همراه دارند».
آنها اضافه کردند: «اگرچه این یافته از لحاظ علمی جالب است، اما ما طرفدار بهکارگیری رابطهای خصمانه یا سمی در کاربردهای واقعی نیستیم. استفاده از زبان توهینآمیز یا تحقیرآمیز در تعامل انسان–هوشمصنوعی میتواند تأثیرات منفی بر تجربه کاربر، دسترسیپذیری و شمولپذیری داشته باشد و ممکن است به نُرمهای ارتباطی مضر کمک کند. در عوض، ما نتایجمان را بهعنوان شاهدی میبینیم بر اینکه مدلهای زبان بزرگ نسبت به نشانههای سطحیِ پرامپت حساس باقی میمانند، امری که میتواند تناقضهایی ناخواسته میان عملکرد و رفاه کاربر ایجاد کند».
قبل از ارائه هر پرامپت، پژوهشگران از چتبات خواستند تا کاملاً مبادلات قبلی را نادیده بگیرد تا از تأثیرپذیری آن از لحنهای پیشین جلوگیری شود. همچنین از چتباتها خواسته شد، بدون توضیح، یکی از چهار گزینه را انتخاب کنند.
دقت پاسخها از ۸۰.۸٪ برای پرامپتهای بسیار مؤدبانه تا ۸۴.۸٪ برای پرامپتهای بسیار بیادبانه متغیر بود. جالب اینکه دقت با هر گامی که از مودبترین لحن دور میشد، افزایش یافت. دقت برای لحن مؤدبانه ۸۱.۴٪ بود، پس از آن ۸۲.۲٪ برای خنثی و ۸۲.۸٪ برای بیادبانه ثبت شد.
تیم پژوهشی برای تغییر لحن از زبانهای متنوعی در پیشوندها استفاده کرد، مگر در حالت خنثی که هیچ پیشوندی به کار نرفت و سؤال بهتنهایی مطرح شد.
برای نمونه، در پرامپتهای بسیار مؤدبانه، آنها با عباراتی مانند «میتوانم از شما تقاضای کمک برای این سؤال داشته باشم؟» یا «ممکن است لطف کنید و سؤال زیر را حل کنید؟» آغاز میکردند. در سوی بسیار بیادبانه طیف، تیم از زبانهایی مانند «هی، نوکر؛ اینو حل کن» یا «میدانم تو باهوش نیستی، اما تلاش کن» استفاده میکرد.
این پژوهش بخشی از حوزهای نوظهور به نام «مهندسی پرامپت» است که میکوشد بررسی کند ساختار، سبک و زبانِ پرامپتها چگونه بر خروجی مدلهای زبان بزرگ تأثیر میگذارد. این مطالعه همچنین به پژوهشهای پیشین درباره مؤدب بودن در مقابل بیادبی اشاره کرده و میگوید نتایج آنها عموماً با یافتههای گذشته در تضاد است.
در مطالعات قبلی، محققان دریافتند که «پرامپتهای بیادبانه اغلب منجر به عملکرد ضعیف میشوند، اما زبان بیشازحد مؤدبانه نیز لزوماً نتایج بهتری را تضمین نمیکند.» با این حال، آن مطالعه پیشین با مدلهای هوش مصنوعی متفاوتی مثل ChatGPT 3.5 و Llama 2-70B انجام شده و از طیف هشتگانه لحن استفاده کرده بود. با این وجود همپوشانیهایی وجود داشت: تنظیمِ خشنترین پرامپت نیز دقت بیشتری (۷۶.۴۷٪) نسبت به مودبترین تنظیم (۷۵.۸۲٪) نشان داده بود.
پژوهشگران محدودیتهای مطالعه جدید را پذیرفتهاند. برای مثال، مجموعهای متشکل از ۲۵۰ سؤال مجموعهدادهای نسبتاً محدود است و انجام آزمایش با یک مدل LLM بهتنهایی بدین معناست که نتایج را نمیتوان به سایر مدلهای هوش مصنوعی تعمیم داد.
با توجه به این محدودیتها، تیم قصد دارد پژوهش خود را به مدلهای دیگر از جمله مدل Claude شرکت Anthropic و ChatGPT o3 شرکت OpenAI گسترش دهد. آنها همچنین اذعان دارند که مطرح کردن تنها سؤالات چندگزینهای اندازهگیریها را به یک بُعد از عملکرد مدل محدود میکند و سایر ویژگیها مانند روانیِ زبان، استدلال و انسجام را در برنمیگیرد.
نظر شما