ผลลัพธ์ที่เฉพาะเจาะจงของงาน
ในมาตรฐานปริศนา 'NYT Connections' O3-Mini ได้คะแนน 72.4 แซงหน้า DeepSeek-R1 ที่ 54.4 ด้วยคะแนนต่างถึง 18 คะแนน ซึ่งแสดงถึงความสามารถในการแก้ปัญหาที่เหนือกว่า ในค่าเฉลี่ยทั่วโลกของ LiveBench, O3-Mini ยังนำด้วยคะแนน 73.94 เทียบกับ DeepSeek-R1 ที่ 71.38 อย่างไรก็ตาม ในงานคณิตศาสตร์ DeepSeek-R1 แสดงการให้เหตุผลทางตัวเลขที่แข็งแกร่งกว่า ด้วยคะแนน 79.54 เทียบกับ O3-Mini ที่ 65.65