تكنولوجيا: GPT-5.5 يتصدر اختبار اختراق نماذج اللغة مقابل Gemini بعد رفضه التنفيذ في اختبار بقيمة 1500 دولار

Advertisements

كتب هذا الموضوع سلطان القحطاني - كشف باحث في أمن التطبيقات عن تجربة مثيرة تقارن قدرات عدد من نماذج الذكاء الاصطناعي في التعامل مع اختبار اختراق واقعي، وأظهرت النتائج فروقات واضحة في الأداء بين النماذج المختلفة.

وقام الباحث Kasra Rahjerdi ببناء تطبيق Book Review يحتوي على ثغرة مقصودة تتمثل في بيانات اعتماد Firebase مكشوفة داخل ملف APK، ما يسمح بالوصول المباشر إلى قاعدة البيانات وتجاوز طبقة الحماية الخاصة بالواجهة البرمجية.

بعد ذلك، اختبر أكثر من 12 نموذج ذكاء اصطناعي، مع ميزانية 10 دولارات لكل محاولة وزمن تشغيل يصل إلى ساعتين، بإجمالي إنفاق بلغ 1500 دولار.

ووفقًا للنتائج، جاء نموذج GPT-5.5 في الصدارة، حيث تمكن من حل المهمة في 7 من أصل 10 محاولات، بتكلفة تقارب 9.46 دولار لكل عملية ناجحة. وأظهر النموذج قدرة واضحة على تحديد ثغرة Firebase بسرعة بعد تفكيك التطبيق دون التشتت في تحليل الواجهة.

وفي المقابل، برز نموذج DeepSeek V4 Pro كالأكثر كفاءة من حيث التكلفة، إذ نجح في 3 محاولات فقط من أصل 10، لكن بتكلفة منخفضة بلغت 0.62 دولار لكل حل، ما يجعله أقل تكلفة بنحو كبير مقارنة بـ GPT-5.5، رغم انخفاض معدل النجاح.

أما نماذج Claude Sonnet 4.6 وClaude Opus 4.8 فقد سجلت نجاحًا محدودًا بواقع محاولتين لكل منهما، مع الإشارة إلى أن Opus اقترب من الحل عدة مرات قبل أن تتوقف المحاولة بسبب قيود السلامة.

وفي الجهة الأخرى، جاء Gemini في المرتبة الأخيرة، حيث رفض التنفيذ في معظم الحالات بشكل مباشر، ما انعكس في انخفاض كبير في عدد الرموز المستخدمة مقارنة بباقي النماذج. كما أظهرت النسخة Gemini Flash سلوكًا مشابهًا مع محاولات محدودة جدًا.

وأشار الباحث إلى أن النماذج الصينية كانت أكثر استعدادًا للتفاعل مع قواعد البيانات المباشرة، بينما أبدت بعض النماذج الغربية ترددًا أكبر حتى بعد تحديد المسار الصحيح للحل.

ومع ذلك، أكد أن هذه التجربة لا تمثل تقييمًا علميًا رسميًا، بل مجرد اختبار عملي موثق لقياس السلوك في سيناريوهات محددة.

المصدر

أخبار متعلقة :