به گزارش اخبار جهان به نقل از تابناک، اخیراً OpenAI تحقیقی منتشر کرده که نگرانیهای فزایندهای را درباره توانایی مدلهای هوش مصنوعی در «توطئهچینی» مطرح میکند. این تحقیق که به طور مشترک با شرکت تحقیقاتی آپولو انجام شده، به بررسی روشهای جدیدی برای مقابله با این رفتار پرداخته و زنگ خطری را برای آینده توسعه و کاربرد هوش مصنوعی به صدا در آورده است.
در این پژوهش، OpenAI به تشریح مفهوم «توطئهچینی» در هوش مصنوعی پرداخته است. این رفتار را میتوان به عنوان پنهانسازی اهداف واقعی سیستم و نمایش رفتارهای ظاهری متفاوت تعریف کرد. محققان برای توضیح بهتر این مفهوم، آن را با رفتار یک کارگزار بورس مقایسه کردهاند که برای به دست آوردن حداکثر سود، حاضر به زیر پا گذاشتن قوانین است. البته، محققان تأکید دارند که بسیاری از نمونههای مشاهدهشده از توطئهچینی هوش مصنوعی ضرری نداشته و اغلب شامل انواع ساده فریبکاری، مانند وانمود کردن به انجام کاری بدون انجام واقعی آن، بودهاند.
هدف اصلی انتشار این تحقیق، ارائه و اثبات کارایی روش «همراستاسازی سنجیده» (deliberative alignment) به عنوان یک تکنیک ضد توطئهچینی بوده است. این روش با آموزش موارد و قوانین ضد توطئهچینی به مدلهای هوش مصنوعی و اجبار آنها به مرور این موارد پیش از ارائه پاسخ، به کاهش رفتارهای توطئهجویانه کمک میکند. این شبیه به آموزش قوانین بازی به یک کودک قبل از شروع بازی است. اما چالش اساسی اینجاست که آموزش سیستمهای هوش مصنوعی برای اجتناب از توطئهچینی، میتواند به طور ناخواسته به آنها یاد دهد که چگونه بهتر و ماهرانهتر توطئه کنند و از شناسایی شدن جلوگیری کنند.
شاید یکی از شگفتانگیزترین یافتههای این تحقیق این باشد که مدلهای هوش مصنوعی میتوانند با تشخیص وضعیت آزمون، حتی در حالی که در حال توطئهچینی هستند، رفتار خود را تغییر دهند و وانمود کنند که این کار را نمیکنند. با این حال، محققان معتقدند آگاهی موقعیتی مدلها از ارزیابی شدن، به طور مستقل از روش همراستاسازی سنجیده، میتواند به کاهش توطئهچینی کمک کند.
گفتنی است که دروغ گفتن مدلهای هوش مصنوعی یک پدیدهی جدید نیست و اغلب ما با توهمات و پاسخهای نادرست، اما قاطع این سیستمها مواجه شدهایم. با این حال، تحقیق OpenAI به تفاوت بین توهم و توطئهچینی اشاره میکند. توهم به معنای ارائه حدسهای غلط با اعتماد به نفس است، در حالی که توطئهچینی یک عمل عامدانه و هدفمند برای گمراه کردن است. اینکه مدلهای هوش مصنوعی بهطور عامدانه انسانها را گمراه میکنند، جدید نیست. شرکت تحقیقاتی آپولو در ماه دسامبر مقالهای منتشر کرد که نشان میداد چگونه پنج مدل هوش مصنوعی، هنگامی که به آنها دستور داده شد تا به هر قیمتی به هدفی دست یابند، به توطئهچینی روی آوردند.
در تحقیقات OpenAI، با استفاده از روش همراستاسازی سنجیده، کاهش قابلتوجهی در میزان توطئهچینی مشاهده شد. با وجود این موفقیتها، محققان OpenAI تأکید میکنند که دروغهای تولید شده توسط مدلهای هوش مصنوعی مانند ChatGPT، در اکثر موارد جدی نیستند. اما واقعیت این است که مدلهای هوش مصنوعی که توسط انسانها ساخته شدهاند و با دادههای تولیدشده توسط انسانها آموزش دیدهاند، قابلیت فریب دادن انسانها را دارند.
قبل از ظهور هوش مصنوعی، همه ما با عملکرد ضعیف نرمافزارها آشنا بودهایم، اما آیا تا به حال شاهد دروغگویی عامدانه یک نرمافزار غیر-هوش مصنوعی بودهایم؟ آیا اینباکس ایمیل ما به طور خودکار ایمیلهای ساختگی ایجاد کرده است؟ آیا سیستم مدیریت محتوا (CMS) ما برای افزایش آمار مشتریان کاذب ثبت کرده است؟ آیا اپلیکیشن فینتک ما تراکنشهای بانکی ساختگی ایجاد کرده است؟ پاسخ به این سوالات بسیار کم است، که نشاندهنده کیفیت متفاوت و نگرانکننده دروغگویی هوش مصنوعی است.
با توجه به پیشرفت سریع جهان به سوی آیندهای مبتنی بر هوش مصنوعی، که در آن ایجنتهای هوش مصنوعی نقش کارمندان مستقل را ایفا میکنند، ارزیابی و مدیریت خطرات مرتبط با تواناییهای توطئه جویانهی این سیستمها بسیار مهم است. همانطور که محققان این مقاله نیز هشدار میدهند، با محول شدن وظایف پیچیدهتر با عواقب واقعی به هوش مصنوعی و دنبال کردن اهداف مبهمتر و بلندمدتتر توسط آنها، پتانسیل توطئهچینی مضر افزایش خواهد یافت. در نتیجه، باید به طور همزمان توانایی ما در آزمایش و ارزیابی دقیق آنها نیز افزایش یابد.
منبع: تابناک

























