OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

文章来源于网络。发布者:科创板日报,转转请注明出处:https://www.zmdnky.org.cn/article/11312.html

(0)
科创板日报的头像科创板日报
上一篇 2025年4月21日 下午1:01
下一篇 2025年4月21日 下午1:01

相关推荐

  • 哈工大科研团队联合研究提升碱性HER电催化性能

    【哈工大科研团队联合研究提升碱性HER电催化性能】4月25日电,近日,哈尔滨工业大学化工与化学学院教授于永生、副教授杨微微团队与北京大学教授郭少军团队合作,在电催化析氢领域取得突破性进展,提出以盐模板法,在非晶钌金属烯上引入亲氧性的镁和钼位点,通过协同促进水吸附-分解,显著提升了碱性HER电催化性能。研究成果发表在《先进材料》(Advanced Materi…

    2025年4月25日
    8600
  • 近五成美国人预计经济衰退半年内到来衰退危机隐忧深种

    一项由线上借贷平台LendingTree发布的调查显示,近三分之二的美国人认为经济衰退即将来临。这项基于2006名美国消费者的调查揭示了公众对经济前景的普遍担忧。数据显示,47%的受访者预计经济衰退将在未来六个月内发生,另有15%的人虽然认同衰退不可避免,但认为其时间点会稍晚一些。值得注意的是,仅有约14%的受访者表示不担心经济衰退,而剩下的近24%则对未来…

    2025年5月20日
    7700
  • 转运出口、拓展替代市场 华强北商家在关税不确定性中寻找出路|一线

    4月15日讯(记者 唐植潇) 美国关税不确定性之下,华强北商家正通过调整出口路径、拓展替代市场等方式寻求出路。 近日,记者走访深圳华强北看到,从赛格广场到华强电子世界,多个商圈人流如常、热度不减。走访过程中,记者还看到不少带着样品单的国内外顾客,在各家商铺间来回拍照、沟通。 多位主做出口的AI终端、穿戴设备、配件商家反馈:虽然美国关税政策尚未真正落地执行,但…

    2025年4月15日
    8500
  • 工信部:推动工业母机高质量发展杜绝内卷同质化

    工业母机作为制造业的“基石”,其发展水平直接关系到国家工业体系的整体竞争力。近日,工信部召开座谈会,聚焦工业母机产业高质量发展,提出了一系列重要方向和政策建议。这一举措不仅体现了国家对制造业基础能力的高度重视,也为行业未来发展指明了路径。 当前,我国工业母机产业正处于从规模扩张向质量提升的关键转型期。数据显示,2022年我国数控机床市场规模已突破1500亿元…

    2025年5月15日
    7900
  • 特朗普前安全顾问批评普京:俄乌和谈中过度冒险

    俄乌冲突进入关键阶段,围绕和谈与停火的博弈愈演愈烈。近日,美国前国家安全顾问约翰·博尔顿对俄罗斯总统普京在俄乌和谈中的立场提出批评,认为其“玩得太过火”。这一观点不仅揭示了当前局势的复杂性,也凸显了国际社会对和平谈判的不同期待。 博尔顿的言论基于对俄罗斯经济与政治现状的双重观察。尽管俄方因欧美制裁而面临经济压力,但普京在国内仍维持着较高的政治威望。然而,随着…

    2025年5月12日
    9000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信