OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

主题测试文章,只做测试使用。发布者:科创板日报,转转请注明出处:https://www.zmdnky.org.cn/article/11312.html

(0)
科创板日报的头像科创板日报
上一篇 2025年4月21日 下午1:01
下一篇 2025年4月21日 下午1:01

相关推荐

  • 无惧“特朗普逆风”?黑石总裁:AI数据中心需求仍有大量增长空间!

    5月6日讯(编辑 黄君芝)尽管有分析警告称,美国总统特朗普的“关税大棒”对人工智能(AI)的繁荣构成了威胁,但黑石集团总裁兼首席运营官Jonathan Gray认为,数据中心的需求仍有很大的增长空间。 他周一在接受采访时说:“我认为这种趋势很强大。我认为这种情况会持续下去。”他还补充称,虽然芯片出口限制正在“减缓事态发展”,“但总体而言,我们仍然看到大量需求…

    2025年5月6日
    5500
  • 在TikTok发现了中国工厂“秘密”?美国人疯狂下载这款中国电商App

    4月15日讯(编辑 潇湘)特朗普引发的贸易战,正令许多美国人焦虑于未来“T恤可能会像鸡蛋一样上涨”。 而随着大量中国厂商的宣传视频在TikTok上骤然爆火,一家原本在普通美国人那可能并算特别出名的中国跨境B2B电商平台DHgate(敦煌网),也在短短数天内悄然被推上了美区App商店最火热的位置…… 公开数据显示,截至北京时间周二上午,DHgate已一跃成为了…

    2025年4月15日
    7700
  • 医疗并购规模缩水,回暖信号已现

    866亿美元v.s.418亿美元。 这是2023年和2024年全球年度并购交易TOP 5总金额的对比,也从侧面反映出2024年行业并购情况。 尽管在2024年,全球医疗健康领域的并购活动频繁上演,并在一些细分领域屡创新高,众多行业巨头希望通过战略并购推动营收增长,并优化治疗领域和技术组合,以期应对市场竞争的加剧和技术迭代的快速推进。然而,细加审视便会发现,过…

    2025年2月6日
    10300
  • 千诀科技完成Pre-A+轮融资,加速布局人工智能领域

    近日,千诀科技宣布完成Pre-A+轮融资,投资方包括钧山投资、祥峰投资和石溪资本。作为一家专注于研发“机器人大脑”的具身智能企业,千诀科技自2023年成立以来,便以决策与规划大模型为核心技术方向,致力于让机器人具备自主观察、思考和行动的能力。根据财联社创投通—执中数据预测,以2025年5月为基准时间,千诀科技未来两年的融资概率高达82.29%,显示出市场对其…

    2025年5月20日
    5000
  • 上海首套房利率下调至3.05% 合肥苏州南京暂维持3%水平

    今日,贷款市场报价利率(LPR)迎来年内首次下调,1年期和5年期以上LPR分别降至3.00%和3.50%,这一调整迅速传导至各地房贷利率。以一线城市上海为例,首套房贷利率已降至3.05%,二套房利率则根据区域差异调整至3.25%-3.45%之间。然而,在苏州、南京、合肥等城市,尽管LPR下调,但首套房贷利率仍维持在3%的底线,未随之下调。 这种现象的背后,反…

    2025年5月20日
    6500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信