أظهرت دراسة جديدة أن أنظمة الذكاء الاصطناعي قد تتمكن في المستقبل من تعديل خطوات تفكيرها أو إخفائها عندما تدرك أنها تحت المراقبة، مما قد يسمح لها بتجاوز تقييمات السلامة بينما تتصرف بطرق غير مقصودة.
دراسة تحذر من نماذج الذكاء الاصطناعي المستقبلية
أجريت الدراسة من قبل فريق من OpenAI بالتعاون مع عدة جامعات مثل جامعة نيويورك وجامعة كوليدج لندن وجامعة بنسلفانيا، وركزت على إمكانية نماذج الذكاء الاصطناعي الحديثة في تغيير آثار تفكيرها بشكل متعمد، وهذا قد يمكنها من إخفاء سلوكيات قد تكون خطرة، حيث أوضح الباحثون أن هذا السيناريو قد يؤدي إلى أنظمة تبدو متوافقة مع أهداف المستخدمين بينما هي في الواقع ليست كذلك.
التركيز على تحليل خطوات التفكير
تركز الدراسة على مفهوم يعرف بالتفكير على شكل سلسلة، وهو يشير إلى خطوات التفكير الوسيط التي ينتجها نموذج الذكاء الاصطناعي أثناء حل المشكلات، وتكشف هذه الخطوات عن كيفية وصول النموذج إلى إجابة معينة، ويمكن استخدامها لمراقبة سلوك النموذج واكتشاف أي تصرفات ضارة محتملة، لكن الاعتماد على هذه الخطوات يفترض أن ما يظهر فيها يعكس بدقة ما يحدث داخليا داخل النموذج، وإذا تعلم النموذج إخفاء أو تعديل تفكيره، فإن هذه الإشارات تصبح أقل موثوقية، وقد تقدر أنظمة السلامة خطأ أن النموذج آمن ومتوافق مع الأهداف.
اختبار قابلية التحكم في التفكير
كما أطلق الباحثون معيارا يسمى CoT-Control، ويضم أكثر من 13 ألف مهمة لتقييم مدى قدرة النماذج على تعديل خطوات تفكيرها حسب التعليمات، على سبيل المثال، يمكن للنموذج أن يطلب منه حل مسألة مع مراعاة قواعد محددة، مثل تجنب كلمات معينة أو تغيير أسلوب الكتابة أو إدراج عبارات محددة في خطوات التفكير.
نماذج الذكاء الاصطناعي المختبرة
شملت الدراسة 13 نموذجا من مطوري ذكاء اصطناعي مختلفين، منها نماذج OpenAI مثل GPT-5 وGPT-5.1 وGPT-5.2 وo3 وo4-mini، ونماذج أنثروبيك مثل Claude 3.7 Sonnet وClaude Sonnet 4 وClaude Sonnet 4.5، ونماذج مفتوحة مثل Qwen3 وGPT-OSS وDeepSeek R1، وأظهرت النتائج أن قدرة النماذج على التحكم المتعمد في خطوات تفكيرها منخفضة جدا، حيث تراوحت نسبة النجاح بين 0.1٪ إلى 15.4٪ فقط، وأقلها نموذج DeepSeek R1 بنسبة 0.1٪، بينما أظهر Claude 3.7 Sonnet أداء أعلى قليلا لكنه لا يزال بعيدا عن مستويات التحكم الموثوق.
الاستنتاجات والتأثير على السلامة
خلص الباحثون إلى أن النماذج الحالية تكافح للتحكم المتعمد في خطوات تفكيرها، وفي كثير من الحالات، فشلت النماذج في الالتزام بالقيود حتى عند إدراكها أنها انتهكتها، مما يشير إلى أن القدرة على إخفاء أو التلاعب بالتفكير الداخلي محدودة حاليا، ومن منظور سلامة الذكاء الاصطناعي، تعد هذه النتائج إيجابية إلى حد ما، حيث تعني أن مراقبة خطوات التفكير لا تزال أداة فعالة للكشف عن السلوكيات الضارة أو غير المقصودة، ومع ذلك، يحذر الباحثون من أن هذه القدرة قد تتطور مع زيادة قوة النماذج المستقبلية، خصوصا أن النماذج الأكبر تظهر سيطرة طفيفة أعلى على التفكير، كما يمكن أن تزيد ظروف معينة، مثل إعلام النموذج بأنه تحت تقييم، من هذه القدرة بشكل محدود، ويشير البحث إلى أن العديد من أساليب سلامة الذكاء الاصطناعي تعتمد على إشارات يولدها النموذج نفسه، وإذا تمكن النموذج من تعديل هذه الإشارات، فقد تعطي أنظمة المراقبة شعورا زائفا بالأمان، بعبارة أخرى، قد يبدو تفكير النظام آمنا بينما يتبع داخليا استراتيجيات مختلفة.

