OpenAI تحذر من نماذج ذكاء اصطناعي قادرة على الكذب

أظهرت دراسة جديدة أن أنظمة الذكاء الاصطناعي قد تتمكن في المستقبل من تعديل خطوات تفكيرها أو إخفائها عندما تدرك أنها تحت المراقبة، مما قد يسمح لها بتجاوز تقييمات السلامة بينما تتصرف بطرق غير مقصودة.

دراسة تحذر من نماذج الذكاء الاصطناعي المستقبلية

أجريت الدراسة من قبل فريق من OpenAI بالتعاون مع عدة جامعات مثل جامعة نيويورك وجامعة كوليدج لندن وجامعة بنسلفانيا، وركزت على إمكانية نماذج الذكاء الاصطناعي الحديثة في تغيير آثار تفكيرها بشكل متعمد، وهذا قد يمكنها من إخفاء سلوكيات قد تكون خطرة، حيث أوضح الباحثون أن هذا السيناريو قد يؤدي إلى أنظمة تبدو متوافقة مع أهداف المستخدمين بينما هي في الواقع ليست كذلك.

التركيز على تحليل خطوات التفكير

تركز الدراسة على مفهوم يعرف بالتفكير على شكل سلسلة، وهو يشير إلى خطوات التفكير الوسيط التي ينتجها نموذج الذكاء الاصطناعي أثناء حل المشكلات، وتكشف هذه الخطوات عن كيفية وصول النموذج إلى إجابة معينة، ويمكن استخدامها لمراقبة سلوك النموذج واكتشاف أي تصرفات ضارة محتملة، لكن الاعتماد على هذه الخطوات يفترض أن ما يظهر فيها يعكس بدقة ما يحدث داخليا داخل النموذج، وإذا تعلم النموذج إخفاء أو تعديل تفكيره، فإن هذه الإشارات تصبح أقل موثوقية، وقد تقدر أنظمة السلامة خطأ أن النموذج آمن ومتوافق مع الأهداف.

اختبار قابلية التحكم في التفكير

كما أطلق الباحثون معيارا يسمى CoT-Control، ويضم أكثر من 13 ألف مهمة لتقييم مدى قدرة النماذج على تعديل خطوات تفكيرها حسب التعليمات، على سبيل المثال، يمكن للنموذج أن يطلب منه حل مسألة مع مراعاة قواعد محددة، مثل تجنب كلمات معينة أو تغيير أسلوب الكتابة أو إدراج عبارات محددة في خطوات التفكير.

نماذج الذكاء الاصطناعي المختبرة

شملت الدراسة 13 نموذجا من مطوري ذكاء اصطناعي مختلفين، منها نماذج OpenAI مثل GPT-5 وGPT-5.1 وGPT-5.2 وo3 وo4-mini، ونماذج أنثروبيك مثل Claude 3.7 Sonnet وClaude Sonnet 4 وClaude Sonnet 4.5، ونماذج مفتوحة مثل Qwen3 وGPT-OSS وDeepSeek R1، وأظهرت النتائج أن قدرة النماذج على التحكم المتعمد في خطوات تفكيرها منخفضة جدا، حيث تراوحت نسبة النجاح بين 0.1٪ إلى 15.4٪ فقط، وأقلها نموذج DeepSeek R1 بنسبة 0.1٪، بينما أظهر Claude 3.7 Sonnet أداء أعلى قليلا لكنه لا يزال بعيدا عن مستويات التحكم الموثوق.

الاستنتاجات والتأثير على السلامة

خلص الباحثون إلى أن النماذج الحالية تكافح للتحكم المتعمد في خطوات تفكيرها، وفي كثير من الحالات، فشلت النماذج في الالتزام بالقيود حتى عند إدراكها أنها انتهكتها، مما يشير إلى أن القدرة على إخفاء أو التلاعب بالتفكير الداخلي محدودة حاليا، ومن منظور سلامة الذكاء الاصطناعي، تعد هذه النتائج إيجابية إلى حد ما، حيث تعني أن مراقبة خطوات التفكير لا تزال أداة فعالة للكشف عن السلوكيات الضارة أو غير المقصودة، ومع ذلك، يحذر الباحثون من أن هذه القدرة قد تتطور مع زيادة قوة النماذج المستقبلية، خصوصا أن النماذج الأكبر تظهر سيطرة طفيفة أعلى على التفكير، كما يمكن أن تزيد ظروف معينة، مثل إعلام النموذج بأنه تحت تقييم، من هذه القدرة بشكل محدود، ويشير البحث إلى أن العديد من أساليب سلامة الذكاء الاصطناعي تعتمد على إشارات يولدها النموذج نفسه، وإذا تمكن النموذج من تعديل هذه الإشارات، فقد تعطي أنظمة المراقبة شعورا زائفا بالأمان، بعبارة أخرى، قد يبدو تفكير النظام آمنا بينما يتبع داخليا استراتيجيات مختلفة.

OpenAI تحذر من نماذج ذكاء اصطناعي قادرة على الكذب

دراسة تحذر من نماذج الذكاء الاصطناعي المستقبلية

التركيز على تحليل خطوات التفكير

اختبار قابلية التحكم في التفكير

نماذج الذكاء الاصطناعي المختبرة

الاستنتاجات والتأثير على السلامة

انخفاض الريال السعودي مقابل الجنيه بفعل الدولار اليوم

حسام حسن يقترب من تدريب الأهلي بعد كأس العالم

أسعار الذهب في الأردن اليوم الخميس 16 أبريل 2026 مع زيادة طفيفة

محمد نجاتي يكشف تفاصيل حادث سير أدى لوفاة شاب في سيارة أوبر

سعر الريال السعودي ينخفض في بداية تعاملات الأربعاء

أسعار الذهب في مصر تنخفض 240 جنيهًا منذ بداية أبريل

سعر الذهب في مصر ينخفض 70 جنيها بنهاية تعاملات الأربعاء

سعر الدولار في مصر ينخفض 114 قرشًا خلال يومين