الارشيف / علوم وتكنولوجيا

تكنولوجيا: فى اختبارات نماذج الذكاء الاصطناعى.. ما روبوت الدردشة الأكثر تفوقًا؟

تكنولوجيا: فى اختبارات نماذج الذكاء الاصطناعى.. ما روبوت الدردشة الأكثر تفوقًا؟

شكرا لقرائتكم خبر عن تكنولوجيا: فى اختبارات نماذج الذكاء الاصطناعى.. ما روبوت الدردشة الأكثر تفوقًا؟ والان مع تفاصيل الخبر

القاهرة - سامية سيد - أعلنت مؤسسة آرك برايز، وهي منظمة غير ربحية، عن ابتكارها اختبارًا جديدًا وصعبًا لقياس الذكاء العام لنماذج الذكاء الاصطناعي الرائدة.

وتمكّن الاختبار الجديد، المسمى ARC-AGI-2، من اجتياز معظم النماذج بنجاح، وفقًا لقائمة المتصدرين في جائزة آرك، حققت نماذج الذكاء الاصطناعي القائمة على الاستدلال، مثل o1-pro من OpenAI وR1 من DeepSeek، نسبة تتراوح بين 1% و1.3% في اختبار ARC-AGI-2، بينما حققت نماذج قوية غير قائمة على الاستدلال، مثل GPT-4.5 وClaude 3.7 Sonnet وGemini 2.0 Flash، نسبة 1% تقريبًا.

تتكون اختبارات ARC-AGI من مسائل شبيهة بالألغاز، حيث يتعين على الذكاء الاصطناعي تحديد الأنماط البصرية من مجموعة من المربعات ذات الألوان المختلفة، وإنشاء شبكة "الإجابات" الصحيحة، و صُممت هذه المسائل لإجبار الذكاء الاصطناعي على التكيف مع مسائل جديدة لم يسبق له رؤيتها.

وقد شارك أكثر من 400 شخص في اختبار ARC-AGI-2 من مؤسسة جائزة آرك لتحديد مستوى الأداء البشري، و في المتوسط، أجابت "لجان" من هؤلاء الأشخاص على 60% من أسئلة الاختبار بشكل صحيح - وهي نسبة أفضل بكثير من نتائج أي من النماذج الأخرى.

ويعد اختبار ARC-AGI-2 يُعدّ مقياسًا أفضل للذكاء الفعلي لنموذج الذكاء الاصطناعي من النسخة الأولى من الاختبار، ARC-AGI-1.

وتهدف اختبارات مؤسسة جائزة آرك إلى تقييم قدرة نظام الذكاء الاصطناعي على اكتساب مهارات جديدة بكفاءة خارج نطاق البيانات التي تدرب عليها.

يمكنكم متابعة أخبار مصر و العالم من موقعنا عبر

Advertisements