Hiệu Suất Cụ Thể Theo Nhiệm Vụ
Trong bài kiểm tra 'Kết Nối NYT', O3-Mini ghi điểm 72,4, cao hơn điểm 54,4 của DeepSeek-R1 với một biên độ lớn 18 điểm, cho thấy khả năng giải quyết vấn đề vượt trội. Trên mốc trung bình toàn cầu của LiveBench, O3-Mini cũng dẫn đầu với 73,94 so với 71,38 của DeepSeek-R1. Tuy nhiên, trong các nhiệm vụ toán học, DeepSeek-R1 thể hiện khả năng lý luận số mạnh hơn, đạt 79,54 so với 65,65 của O3-Mini.