OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局

发布时间:2025-01-21 09:49:31 来源:互联网

本站 1 月 20 日消息,科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议,其开发的数学基准测试 FrontierMath 的客观性受到质疑。

本站简要介绍下 Epoch AI 组织,是主要由 Open Philanthropy 资助的非营利组织。该组织推出了 FrontierMath 基准测试,通过整合专家级数学问题,衡量和测试 AI 模型的数学能力。

OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基准测试中,以碾压式优势傲视其它模型,准确率高达 25%,而其他模型得分在 2% 左右。

Epoch AI 的一位承包商“Meemi”在 LessWrong 论坛上发帖称,许多 FrontierMath 的贡献者直到公开宣布时才知道 OpenAI 参与了该基准搭建。

Meemi 写道:“沟通完全不透明。我认为 Epoch AI 应该披露 OpenAI 的资助,承包商在选择是否参与基准测试工作时,应该获得关于其工作成果可能被用于能力提升的透明信息。”

六位参与 FrontierMath 基准测试设计的数学家表示,他们并不知道 OpenAI 拥有独家访问权限。如果事先知道,他们可能不会参与。

一些社交媒体用户担心,这种保密行为可能会损害 FrontierMath 作为客观基准的声誉。除了资助 FrontierMath 之外,OpenAI 还可以访问该基准测试中的许多问题和解决方案 ——Epoch AI 在 12 月 20 日 o3 发布之前并未透露这一事实。

Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 在回复 Meemi 的帖子时坚称,FrontierMath 的完整性没有受到损害,但也承认 Epoch AI 在未能更加透明方面“犯了一个错误”。

AI 专家 Gary Marcus 质疑 OpenAI 的声明,将此事件与 Theranos 丑闻相提并论。本站注:该丑闻是由伊丽莎白・霍尔姆斯创立的血液检测公司 Theranos 的欺诈事件,该公司声称其技术只需几滴血就能进行数百项检测,但最后谎言被揭穿,公司最终倒闭,霍尔姆斯也被判犯有欺诈罪。

Besiroglu 承认 OpenAI 可以访问 FrontierMath 的大部分问题和答案,但有一个“OpenAI 未见过的保留数据集”用于验证模型的能力。

Besiroglu 写道

我们被限制在 o3 发布前后才能披露合作关系,事后看来,我们应该更努力地争取尽快对基准测试贡献者保持透明。我们的数学家应该知道谁可以访问他们的工作。即使我们在合同上受到限制,我们也应该让与贡献者的透明度成为我们与 OpenAI 协议中不可协商的一部分。

本周热门攻略

1
如何通过77777免费观看最新热门电视剧?有哪些值得推荐的剧集?

如何通过77777免费观看最新热门电视剧?有哪些值得推荐的剧集?

2024/12/02

2
为什么我们总是说“好久没C你了,黄”?背后隐藏的情感与联系如何影响我们的生活?

为什么我们总是说“好久没C你了,黄”?背后隐藏的情感与联系如何影响我们的生活?

2025/01/08

3
91国产白浆洗澡背后隐藏的疑问:吊死重是什么?有何风险?

91国产白浆洗澡背后隐藏的疑问:吊死重是什么?有何风险?

2025/01/07

4
为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量?如何改善宝宝睡眠?

为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量?如何改善宝宝睡眠?

2024/12/07

5
如何通过一色一伦内容吸引用户?深度解析与实际应用:适用于影视与设计领域的创作策略

如何通过一色一伦内容吸引用户?深度解析与实际应用:适用于影视与设计领域的创作策略

2025/01/18

6
如何在8848高清电影电视剧免费看平台上找到最新的影视资源?这里有你不知道的小技巧!

如何在8848高清电影电视剧免费看平台上找到最新的影视资源?这里有你不知道的小技巧!

2025/01/16

7
校园绑定系统升级后,如何高效利用jy收集系统hpc海棠功能?

校园绑定系统升级后,如何高效利用jy收集系统hpc海棠功能?

2024/12/09

8
“大肉大捧一进一出视频来了”究竟有什么魅力?为何网友们争议不断?

“大肉大捧一进一出视频来了”究竟有什么魅力?为何网友们争议不断?

2025/01/18

9
《可不可以干湿你》:顾青州与觅芽子的深情纠葛,探索情感与生活的多重维度

《可不可以干湿你》:顾青州与觅芽子的深情纠葛,探索情感与生活的多重维度

2025/01/02

10
“教授好会c1vNP拦路猫”到底是什么意思?是学术术语还是网络文化现象?

“教授好会c1vNP拦路猫”到底是什么意思?是学术术语还是网络文化现象?

2024/12/30