कार्य-विशिष्ट प्रदर्शन
‘NYT कनेक्शन्स’ पहेली बेंचमार्क में, O3-Mini 72.4 अंक प्राप्त करता है, जो DeepSeek-R1 के 54.4 से 18 अंकों से ज्यादा है, उसके श्रेष्ठ समस्या समाधान क्षमता को दर्शाता है। लाइवबेंच के ग्लोबल औसत पर, O3-Mini भी 73.94 के साथ अग्रणी है, जबकि DeepSeek-R1 का 71.38 है। हालांकि, गणितीय कार्यों में, DeepSeek-R1 अधिक मजबूत सांख्यिकीय तर्कशक्ति प्रदर्शित करता है, जो 79.54 अंक की स्कोरिंग करता है, O3-Mini के 65.65 की तुलना में बेहतर।