Виконання завдань за специфіками
У контрольному тесті 'Зв'язки NYT' O3-Mini набирає 72,4 бали, випереджаючи DeepSeek-R1 на 18 балів з результатом 54,4, що демонструє його високу здатність до розв'язання завдань. За середнім світовим показником на LiveBench, O3-Mini також лідирує з 73,94 у порівнянні з 71,38 DeepSeek-R1. Проте у математичних завданнях DeepSeek-R1 показує сильніші числові можливості, набираючи 79,54 проти 65,65 у O3-Mini.