这些进步表明一种模型可以处理更

ujjal22 · Post by **ujjal22** » Tue Jan 07, 2025 6:03 am

同样，在竞争性编程中，o3 获得了 2727 分的 ELO 分数，远远超过了 o1 之前的最高分 1891 分。这些数字表明专注于提高模型解决现实世界编码挑战的能力。

数学和科学
改进不仅限于编码。 o3 在数学推理方面也表现出色，在 AIME 2024 中的正确率为 96.7%，而 o1 的正确率为 83.3%。微妙和更困难的问题，更接近传统上由人类专家主导的基准。

数学和科学中的 O1 与 o3

数学和科学中的 O1 与 O3。来源：OpenAI

这种跳跃在科学相关基准中同样明显。在衡量博士级科学问题表现的 GPQA Diamond 上，o3 的准确率达到 87.7%，高于 o1 的 78%。这些进步表明该模型解决跨学科技术要求高的问题的能力得到了广泛的提高。

EpochAI数学前沿
o3 进步尤其引人注目的一个领域是 EpochAI Frontier Math 基准测试。

它被认为是人工智能中最具挑战性的基准之一，因为它包含新颖且哥伦比亚电话数据未发表的问题，并且故意设计得比标准数据集困难得多。其中许多问题都处于数学研究的层面，通常需要专业数学家花费数小时甚至数天的时间才能解决单个问题。目前的人工智能系统在这个参数上的得分通常低于 2%，这凸显了它们的难度。

EpochAI 前沿数学中的 O3

EpochAI 前沿数学中的 O3。来源：OpenAI

Epic AI 的前沿数学很重要，因为它使模型超越了记忆或优化熟悉的模式。相反，它测试你的概括能力、抽象推理能力以及解决以前没有提出过的问题的能力——这些特征对于人工智能推理能力的进步至关重要。 o3 在该基准测试中的得分为 25.2%，这似乎是一个显着的进步。

ARC AGI 的 O3 预览
o3 最引人注目的成就之一是它在 ARC AGI 基准测试中的表现，该测试被广泛认为是评估人工智能一般智能的黄金标准。