近日,在为期12个工作日的线上新品发布活动最后一日,OpenAI宣布了“压轴大作”:o1的下一代模型o3,而且一开始就要推出两个版本,一个正式的o3,还有一个相对较小的精简版o3-mini。o3在OpenAI实现通用人工智能(AGI)这一奋斗目标上取得了突破,最高的测试成绩达到了类人水平。经过2024年AIME数学竞赛的题目测试,o3的准确度得分为96.7、即准确率96.7%,大幅度超过了o1预览版的56.7和o1的83.3%,仅错了一道题,相当于一名顶级数学家的水平。
【机会前瞻】
近日,OpenAI在为期12个工作日的线上新品发布活动最后一日,发布了其压轴大作o3和o3-mini在内的o3模型系列,这是AI领域又一重要里程碑。
OpenAI的o3模型在多个基准测试中超越了前代o1模型。在推理能力方面,o3模型在ARC-AGI基准测试中取得了突破性成绩,最高得分达到87.5%,远超o1模型的25%,甚至超过了人类平均水平的85%。这表明o3在处理复杂问题时,能够像人类一样进行逻辑推理和抽象思考,具备更强的解决问题能力。
编码能力方面,在编码测试SWE-Bench Verified中,o3性能比o1高出22.8%,在CodeForces中o3评分高达2727,超越了大部分人类程序员。它不仅能生成准确的代码,还能提供有见地的解释,帮助开发人员更好地理解和完善项目,极大地提高了软件开发的效率和质量。
在2024年AIME 数学竞赛题目测试中,o3的准确度得分为96.7%,而o1为83.3%。在Epoch AI Frontier Math测试中,o3解决了25.2%的问题,而其他模型的得分均未超过2%,展现了其在数学推理和处理高度复杂抽象问题方面的巨大潜力。
其中o3-mini作为更经济高效的版本,预计将于明年1月底发布,其在成本和延迟方面比o1-mini更低,有望进一步推动人工智能技术的普及和应用。
可以看出,OpenAI此次发布的o3模型系列,拥有强大性能和复杂任务处理能力,作为行业标杆,o3模型的发布将进一步激发国内对AI算力的需求,推动国内算力市场规模的持续扩大。