OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

主题测试文章,只做测试使用。发布者:科创板日报,转转请注明出处:https://www.zmdnky.org.cn/article/11312.html

(0)
科创板日报的头像科创板日报
上一篇 2025年4月21日 下午1:01
下一篇 2025年4月21日 下午1:01

相关推荐

  • 中国游客“抛弃”泰国,去了哪里?

    春节长假结束,刷刷朋友圈几乎不是在旅游,就是在去景点的路上。国内游和出境游的火爆还是让市场看到了旅游市场的巨大潜力。国家移民管理局发布的预测数据显示,2025年春节假期全国口岸将迎来新一轮出入境客流高峰,日均出入境人员达到185万人次,较2024年春节假期增长9.5%。 然而,在出境目的地的选择上,由于王星绑架事件的影响,泰国旅游的数据明显下降。根据旅行分析…

    2025年2月7日
    6300
  • 杭州,批量制造“首富”

    DeepSeek的成功将杭州推上了舞台中央。就在近日,聚光灯下的主角,又发布了新动作。 杭州官方发布《杭州市人民政府关于推动经济高质量发展若干政策(2025年版)》。抛出了一系列支持当地科创发展、产业升级、民生改善的政策措施。并且旗帜鲜明地提出,向AI、机器人等未来产业倾斜,培育更多顶级企业。 焦虑的不止有硅谷,还有国内的一二线城市。在VC们集体反思之后,江…

    2025年2月13日
    5000
  • DeepSeek,搅了谁的局?

    上一次AI行业引起全民震动还是2022年11月ChatGPT的横空出世,此后AI行业每逢重大变革,都被称为是“ChatGPT时刻”。 这个词在2024年年底被改写,“DeepSeek时刻”出现,被看作是AI历史上的新转折点。 2025年春节前期,中国杭州的一家AI企业DeepSeek(深度求索)接连发布了V3(2024年12月26日)和R1(2025年1月2…

    2025年2月10日
    5200
  • 实控人离婚引风波,瀚川智能面临控制权与业绩双重危机

    近日,瀚川智能(股票代码:688022)因一系列负面事件引发市场关注。公司实控人蔡昌蔚的离婚纠纷、股权冻结、融资违约以及业绩亏损等问题接踵而至,让这家科创板首批上市公司陷入前所未有的困境。 突发离婚风波 2月18日,瀚川智能发布公告称,因与前妻刘爱琼的财产诉讼纠纷,实控人蔡昌蔚所持公司控股股东瀚川投资及其一致行动人的全部股份被冻结,占其直接和间接所持公司股份…

    2025年2月23日
    9500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信