推理能力超博士，OpenAI发布最强模型o1 - 迷途小书童的Note迷途小书童的Note

昨天凌晨，OpenAI又给我们带来了一个激动人心的消息，他们发布了一款全新的AI模型o1，该模型在性能上远超以往的GPT系列。

告别GPT，开启新纪元

OpenAI选择将新模型命名为”o1″，而不是继续使用GPT系列的名称。”o1″代表了一个全新的起点和范式。它不再局限于语言生成，而是在推理能力方面取得了重大突破。简单来说，如果说GPT系列像是一个能说会道的学生，那么o1就更像是一个深思熟虑的哲学家。

惊人的性能提升

那么，o1到底有多厉害呢？让我们来看看一些具体的数据：

在国际数学奥林匹克竞赛(IMO)的资格考试中，GPT-4只解决了13%的问题，而o1模型竟然解决了83%的问题！这简直就是从”及格边缘”一跃成为”班级前三”啊！
在编程方面，o1在Codeforces比赛中的表现超过了89%的选手。这意味着，它已经能够与大多数专业程序员一较高下了。
更令人震惊的是，在博士级科学问题(GPQA Diamond)上，o1达到了78%的正确率，远超GPT-4的56.1%，甚至超过了人类专家的69.7%！

推理能力超博士，OpenAI发布最强模型o1

这些数据无不显示，o1在解决复杂问题和进行深度推理方面，已经达到甚至超越了人类专家的水平。

思考方式的革命

o1最与众不同的特点，就是它的”思考”方式。与早期版本不同，o1模型在作出回答之前会像人类一样”深思熟虑”，用时约10-20秒，产生一个长长的内部思路链，并能够尝试不同的策略并识别自身的错误。

这让我想到了著名心理学家丹尼尔·卡尼曼在《思考，快与慢》中提出的理论。他认为人类的思维有两个系统：系统1是快速、直觉性的；系统2则是慢速、理性的。如果用这个理论来类比，我们可以说GPT系列更像是系统1，而o1则更接近系统2。

使用o1的最佳实践

根据OpenAI的建议，使用o1时应该：

这些建议体现了o1的高度智能和自主推理能力，使用起来将会更加简单直接。

o1的局限性

尽管o1表现出色，但它也有一些局限性：

对未来的思考

o1的出现无疑是AI领域的一个重要里程碑。它不仅展示了AI在逻辑推理和问题解决方面的巨大进步，更预示着AI可能在更多领域超越人类专家水平。

好了，今天的分享就到这里，我们下期见。