أعلنت شركة شاومي عن إطلاق نموذج جديد يحمل اسم Xiaomi-Robotics-0، وهو نموذج مفتوح المصدر يضم 4.7 مليار باراميتر، ويهدف إلى تمكين الروبوتات من فهم البيئة بصريًا واستيعاب الأوامر اللغوية وتنفيذ الحركات بشكل لحظي، وهو ما تسميه الشركة “الذكاء الفيزيائي”.

وبحسب تصريحات شاومي، سجل النموذج الجديد عدة أرقام قياسية خلال الاختبارات والمحاكاة الواقعية، حيث يعتمد على مفهوم “الحلقة المغلقة” في الروبوتات، والتي تشمل الإدراك واتخاذ القرار والتنفيذ، مما يعني أن الروبوت يحتاج إلى رؤية البيئة وفهم المهمة المطلوبة ثم وضع خطة وتنفيذها بسلاسة، وتؤكد الشركة أن Robotics-0 مصمم لتحقيق توازن بين الفهم الشامل والتحكم الحركي الدقيق لضمان أداء متقن في مختلف المهام.

مكونات نموذج Xiaomi-Robotics-0

يعتمد نموذج Xiaomi-Robotics-0 على معمارية Mixture-of-Transformers (MoT)، التي تقسم المهام بين مكونين رئيسيين لتحقيق توازن بين الفهم الحسي والتنفيذ الحركي، حيث يتمثل المكون الأول في نموذج اللغة البصرية VLM، الذي يعمل كـ”دماغ” النموذج، مدربًا على تفسير الأوامر البشرية حتى الغامضة مثل “يرجى طي المنشفة”، وفهم العلاقات المكانية من المدخلات البصرية عالية الدقة، كما يتولى هذا المكون مهام الكشف عن الأشياء والإجابة على الأسئلة البصرية والاستدلال المنطقي.

أما المكون الثاني فهو خبير الحركة Action Expert، المبني على Diffusion Transformer متعدد الطبقات DiT، والذي لا يكتفي بإصدار حركة واحدة في كل مرة، بل ينتج كتلة حركة، أي سلسلة متتابعة من الحركات الدقيقة باستخدام تقنيات مطابقة التدفق لضمان دقة وسلاسة الحركة، وقد أشارت شاومي إلى أنها تجاوزت أحد التحديات الكبرى في نماذج VLA، وهو فقدان القدرات الإدراكية أثناء تعلم الحركة، عبر تدريب النموذج على البيانات متعددة الوسائط جنبًا إلى جنب مع البيانات الحركية، مما مكن النظام من التفكير حول العالم مع اكتساب القدرة على التحرك فيه بسلاسة.

طريقة التدريب

يتم تدريب نموذج Xiaomi-Robotics-0 على مراحل دقيقة، تبدأ بأولى آليات اقتراح الحركة Action Proposal، التي تجبر نموذج VLM على توقع توزيع الحركات المحتملة أثناء تفسير الصور، مما يساعد على مواءمة تمثيلات النموذج الداخلية مع طريقة تنفيذ الحركات فعليًا، وبعد هذه المرحلة، يجمد نموذج VLM ويدرب DiT بشكل منفصل لإنتاج تسلسلات حركة دقيقة باستخدام خصائص key-value بدلاً من الرموز اللغوية التقليدية، لضمان تنفيذ الحركات بسلاسة وفعالية.

كما تعاملت شاومي مع تحدي تأخر الاستدلال Inference Latency، الذي قد يؤدي إلى توقفات أو سلوك غير مستقر أثناء الحركة، عبر تطبيق استدلال غير متزامن يفصل بين حساب النموذج وتشغيل الروبوت، مما يضمن استمرار الحركة بسلاسة حتى عند بطء معالجة النموذج، ولتحسين استقرار الحركة، تستخدم الشركة تقنية Clean Action Prefix لإعادة إدخال الحركة السابقة للنموذج، مما يمنع ارتجاف الحركات مع مرور الوقت، إضافة إلى قناع انتباه يركز على المدخلات البصرية الحالية بدلاً من الاعتماد على الحالات السابقة، مما يعزز استجابة الروبوت للتغيرات المفاجئة في البيئة.

في الاختبارات، سجل نموذج Xiaomi-Robotics-0 أداءً متقدمًا على محاكيات LIBERO وCALVIN وSimplerEnv، متفوقًا على نحو 30 نموذجًا آخر، مما يعكس قوة قدراته في الجمع بين الفهم البصري واتخاذ القرار والتنفيذ الحركي، وفي العالم الحقيقي، اختبرت شاومي النموذج على روبوت ذي ذراعين في مهام طويلة المدى مثل طي المناشف وفك المكعبات البنائية، حيث أظهر الروبوت تنسيقًا ثابتًا بين اليد والعين وتمكن من التعامل مع الأجسام الصلبة والمرنة دون أي أعطال واضحة، وعلى عكس أنظمة VLA السابقة التي كانت تفقد جزءًا من قدراتها الإدراكية أثناء تعلم الحركة، حافظ نموذج Robotics-0 على قدرات قوية في الرؤية واللغة، لا سيما في المهام التي تجمع بين الإدراك والتفاعل الفيزيائي.