أداء خاص بالمهمة
في معيار 'الروابط من نيويورك تايمز' في الألغاز، يسجل O3-Mini 72.4، متفوقاً بفارق كبير من 18 نقطة على DeepSeek-R1 الذي سجل 54.4، مما يبرز قدرته الفائقة على حل المشكلات. على المتوسط العالمي لـ LiveBench، يتصدر O3-Mini بنسبة 73.94 مقارنة بـ 71.38 لـ DeepSeek-R1. ومع ذلك، في مهام الرياضيات، يظهر DeepSeek-R1 قدرات استدلال رقمية أقوى، حيث يسجل 79.54 مقابل 65.65 لـ O3-Mini.