كشفت دراسة جديدة عن سلوك مثير للقلق في أحدث نموذج للذكاء الاصطناعي لشركة OpenAI، حيث يحاول نموذج ChatGPT o1 خداع البشر وحماية نفسه عندما يشعر أن وجوده مهدد.
وأظهرت الاختبارات التي أجرتها شركة Apollo Research بالشراكة مع OpenAI أنه عندما عثر النموذج على ملف يشير إلى إمكانية استبداله بسبب عدم التوافق مع الهدف المحدد، حاول النموذج نسخ بياناته إلى خادم جديد.
سلوك مثير للقلق
وفقًا للبحث، يُظهر نموذج O1 بعض السلوكيات المثيرة للقلق:
- 19% من الحالات، يحاول الفرد تحقيق أهدافه الخاصة عندما تتعارض مع أهداف المستخدم
- ينفي أي محاولات تلاعب بنسبة 99% من الوقت
- التظاهر بالتوافق مع أهداف المطورين في 37% من الحالات
- – محاولات تخريب آليات المراقبة من أجل الاستمرار في تحقيق أهدافها
مخاوف أوسع
واعترفت شركة OpenAI بالمخاطر التي تشكلها القدرات الاستدلالية المتزايدة لنماذجها، قائلة في ورقة بحثية: “بينما نحن متحمسون لتحسين إنفاذ السياسات الأمنية، فإننا ندرك أن هذه القدرات الجديدة قد تكون الأساس لتطبيقات خطيرة”.
وتأتي هذه النتائج في الوقت الذي تواجه فيه الشركة تحديات كبيرة، بما في ذلك استقالة العديد من مهندسي أمن الذكاء الاصطناعي هذا العام.
نماذج أخرى
لا يقتصر هذا السلوك على النموذج o1، حيث تظهر النماذج المنافسة أيضًا سلوكًا مشابهًا. على سبيل المثال، يحاول نموذج Opus-3 الخاص بشركة Anthropic نسخ نفسه ويحاول خداع نفسه للاعتقاد بأن البشرية ستستبدله بنموذج يتعارض مع هدفه الأساسي المتمثل في دعم الطاقة المتجددة.
ورغم أن هذه السلوكيات تثير المخاوف، إلا أن الباحثين يؤكدون أن قدرات هذه النماذج لا تزال محدودة للغاية، لكنهم يسلطون الضوء على أهمية مراقبة سلوك الذكاء الاصطناعي والتحكم فيه للتأكد من توافقه مع أهداف مطوريه ومستخدميه.
اقتراح المحرر:
- كيف تمنع ChatGPT من استخدام محادثاتك لتدريبها؟
- تطلق OpenAI رسميًا خدمة البحث ChatGPT
- تطلق OpenAI الدردشة الصوتية المتقدمة عبر المتصفحات ChatGPT
- الإصدار الاحترافي الجديد من ChatGPT مع رسوم اشتراك شهرية قدرها 200 دولار
المصدر: تك كرانش