محققان «دانشگاه استنفورد» با انجام یک مطالعه جدید متوجه شدهاند که نسخه ماه ژوئن چتبات هوش مصنوعی پرمخاطب ChatGPT در مقایسه با نسخه ماه مارس عملکرد ضعیفتری در برخی وظایف داشته است.
دانشمندان در مطالعه خود عملکرد چتبات ساخته شده توسط OpenAI را طی چند ماه در چهار کار «متنوع» حل مسائل ریاضی، پاسخ دادن به سؤالات حساس، تولید کد نرمافزاری و استدلال بصری مقایسه کردهاند. همچنین در این مطالعه، دو نسخه از فناوری هوش مصنوعی OpenAI یعنی GPT-3.5 و GPT-4 در طول دورههای زمانی مختلف بررسی شدهاند.
اختلاف دقت نسخههای مختلف ChatGPT
قابلتوجهترین نتیجه عنوان شده توسط آنها احتمالاً به قابلیت مدل GPT-4 در حل مسائل ریاضی مربوط میشود که در 97.6 درصد از سؤالهای ماه مارس به درستی تشخیص داده 17077 یک عدد اول است. اما تنها سه ماه بعد، دقت آن به 2.4 درصد کاهش پیدا کرده است!
در مقابل، GPT-3.5 عملاً مسیر معکوسی داشته است. هرچند نسخه مارس آن فقط در 7.4 درصد مواقع این سؤالات را بهدرستی پاسخ داده، اما در ماه ژوئن موفق شده تا میزان دقیق بودن پاسخهای خود را تا 86.8 درصد افزایش دهد.
زمانی که محققان از مدلها خواستند تا کد بنویسند یا یک آزمایش استدلال بصری (پیشبینی شکل بعدی یک الگو) انجام دهند نیز نتایج مشابهی وجود داشته است.
نتیجه بسیار متفاوتی که در ماه مارس تا ژوئن از مدل هوش مصنوعی OpenAI مشاهده شده است، تأثیرات غیرقابلپیشبینی تغییرات یک بخش از مدل را نشان میدهد. «جیمز زو»، استاد علوم کامپیوتر استنفورد که همچنین یکی از نویسندگان این مطالعه است، در این رابطه توضیح میدهد:
«هنگامی که ما قصد داریم عملکرد یک مدل زبان بزرگ را در برخی کارهای خاص بهبود بدهیم، میتواند عواقب ناخواسته زیادی وجود داشته باشد که ممکن است در واقع عملکرد آن در کارهای دیگر را تضعیف کند. انواع مختلفی از وابستگی متقابل در نحوه پاسخگویی مدل به سؤالات وجود دارد که میتواند منجر به رفتارهای بدتری شود که تاکنون مشاهده کردهایم.»