OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

4月21日讯(编辑 刘蕊)北京时间4月17日凌晨,OpenAI的多模态推理大模型o3与o4-mini重磅上线,这一大模型号称是OpenAI迄今最强、最智能的模型。

然而,研究机构很快发现,o3人工智能模型的开发方和第三方基准测试结果存在明显差异,这引发了人们对该公司透明度和模型测试实践的质疑。

OpenAI测试作弊了?

去年12月,OpenAI在预发布o3时,就强调了该模型在解决困难问题上的能力大幅提升。当时OpenAI声称,该模型可以回答FrontierMath(一组具有挑战性的数学问题)中超过25%的问题。这个分数远远超过了其竞争对手——排名第二的模型只能正确回答大约2%的FrontierMath问题。

OpenAI首席研究官Mark Chen当时在直播中表示:

“今天,所有大模型产品(能解决的FrontierMath问题的数量)的比例都不到2%…我们(在内部)看到,在积极的测试时间计算设置中,我们能够获得超过25%的解题率。”

但第三方测试证明,这个25%的数字很可能并不准确。

美东时间上周五(4月18日),开发“FrontierMath”的研究机构“Epoch AI”公布了“o3”的独立基准测试结果。Epoch发现,o3的得分约为10%,远低于OpenAI声称的最高得分25%。

OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩

当然,这并不意味着OpenAI一定在撒谎。该公司去年12月发布的基准测试结果显示,其得分的下限与Epoch AI观察到的得分相当。Epoch AI还指出,他们的测试设置可能与OpenAI不同,即他们使用了FrontierMath的更新版本进行评估。

Epoch AI写道:“我们的结果与OpenAI之间的差异可能是由于OpenAI使用更强大的内部框架进行评估,使用更多的测试时间(计算),或者因为这些结果运行在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”

根据ARC Prize Foundation(一个测试过o3预发布版本的组织)在X上的一篇文章,公开发布的o3模型和预发布版本“是一个不同的模型……针对聊天/产品使用进行了调优”,这证实了Epoch AI的报告。

“所有正式发布的o3计算层都比我们(之前基准测试)的版本小,”ARC Prize写道,一般来说,计算层越大,获得的基准测试分数也会越高。

基准测试争议已成广泛问题

随着AI模型供应商竞相利用新模型抢占头条和市场份额,在人工智能行业,基准测试“争议”正在成为一种常见现象,

比如最近,埃隆·马斯克的xAI被指控,其最新人工智能模型Grok 3的基准测试图表具有误导性。

本月早些时候,Meta的新一代开源大模型Llama 4也遭遇了作弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模型版本与提供给开发者的版本不一致。

主题测试文章,只做测试使用。发布者:科创板日报,转转请注明出处:https://www.zmdnky.org.cn/article/11312.html

(0)
科创板日报的头像科创板日报
上一篇 2025年4月21日 下午1:01
下一篇 2025年4月21日 下午1:01

相关推荐

  • 武汉经信局调研先进功能材料产业创新实验室:积极协调集成电路产业基金等国家大基金资源 支持企业做强核心业务

    【武汉经信局调研先进功能材料产业创新实验室:积极协调集成电路产业基金等国家大基金资源 支持企业做强核心业务】4月28日电,记者从武汉市经济和信息化局获悉,近日,市经信局党组书记、局长李世涛赴鼎龙股份,调研先进功能材料产业创新联合实验室推进工作。市经信局将继续加大服务保障力度,支持实验室承担更多电子新材料领域重大科技攻关专项;积极协调制造业转型升级基金、集成电…

    2025年4月28日
    3500
  • 中国AI双子星,在硅谷教OpenAI做事?

    国内大模型圈迎来神仙打架,OpenAI一觉醒来惊呼变了天? 1月20日,DeepSeek没有任何预兆地发布了DeepSeek-R1模型。不到两个小时,Kimi k1.5新模型随即发布。模型之外,还都附带上了详细的技术训练报告。 两款推理模型,全面对标OpenAI o1,在多项基准测试中获得了打平和超越o1的好成绩。DeepSeek-R1文本推理模型出厂即开源…

    2025年1月23日
    6400
  • 蒙草生态的“减持风波”:背后的故事与市场解读

    2月21日晚,蒙草生态(300355.SZ)的一纸公告引发了市场的广泛关注。公司控股股东王召明及其一致行动人、董事焦果珊、王秀玲和高级管理人员王媛媛计划合计减持不超过2.05%的公司股份。这一消息不仅让投资者们感到意外,也让市场对蒙草生态的未来充满了好奇。 减持计划的细节 根据公告,王召明计划减持不超过2135.46万股,占公司总股本的1.3311%;焦果珊…

    2025年2月22日
    11300
  • 自营高增长143%,第一创业业绩看点在自营与资管,两副总到位,常务副总仅38岁

    4月26日讯(记者高艳云)4月25日,第一创业披露2024年报及2025年一季报。数据显示,2024年公司实现营业总收入35.32亿元,同比增长41.91%;归母净利润9.04亿元,同比高增长173.28%。不过,2025年一季度业绩出现下滑,营业总收入6.61亿元,同比下降1.87%;归属于上市公司股东的净利润为1.18亿元,同比下降17.59%。 第一创…

    2025年4月26日
    3900
  • 港股物流股走高顺丰控股涨近4% 快递业预期受益促内销与出海双向驱动

    4月14日讯(编辑 冯轶)今日港股继续反弹向上探高,其中快递物流板块涨幅居前引发市场关注。 截至发稿,顺丰控股(06936)涨近4%、中通快递-W(02057.HK)、极兔速递-W(01519)双双涨超3%,中国外运(00598)、京东物流(02618.HK)等个股也纷纷跟涨。 消息面上,商务部近期加大力度推进内外贸一体化,帮助外贸产品拓内销,指导行业协会、…

    2025年4月14日
    4900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信