中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目

发布时间:2025-01-26 09:38:05 来源:互联网

感谢本站网友 HH_KK 的线索投递!

本站 1 月 25 日消息,本站从中国电信人工智能研究院获悉,其“复杂推理大模型”TeleAI-t1-preview 现已正式发布,即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

官方表示,在美国数学竞赛 AIME 2024 、MATH500 两项数学基准评测中,TeleAI-t1-preview 分别以 60 和 93.8 分的成绩,大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 得分超过 GPT-4o,并比肩 Claude 3.5 Sonnet 的性能水准。

评测显示,将《九章算术》中的一道题目给到 TeleAI-t1-preview 后,其能够先针对文言文进行理解和简化,再转换成现代汉语,随之给出数学推导和答案。

据介绍,在此过程中,TeleAI-t1-preview 可将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。不仅如此,其还能够严谨地进行古今单位换算。

TeleAI引入了创新的训练策略,从而保障思考推理过程准确有效。

    数据准备阶段:收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集,确保模型能够适应不同类型的推理任务。

    Judge Model(评估模型):训练了一个 Judge Model 专门用于分析和评估模型长思考链路的正确性,为模型的反思和错误修正提供指导。

    SFT(监督微调)阶段:用 MCTS(蒙特卡洛树搜索)构造高质量长推理数据,结合每个步骤的准确率和解决方案长度来选择最优的完整路径,在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用 Judge Model 对推理过程中正确率较低的路径进行分析,引导模型对错误的推理步骤进行反思和修正,从而构造出高质量的思维链数据进行 SFT 训练。

    强化学习阶段:额外构造了 Rule-based Reward Model(基于规则的奖励模型),以提供足够准确的奖励信号,通过在线强化学习算法进一步提升模型的逻辑推理能力。

本周热门攻略

1
如何通过77777免费观看最新热门电视剧?有哪些值得推荐的剧集?

如何通过77777免费观看最新热门电视剧?有哪些值得推荐的剧集?

2024/12/02

2
为什么我们总是说“好久没C你了,黄”?背后隐藏的情感与联系如何影响我们的生活?

为什么我们总是说“好久没C你了,黄”?背后隐藏的情感与联系如何影响我们的生活?

2025/01/08

3
18岁女性流白浆的不同类型及其健康隐患,如何判断是否需要就医?

18岁女性流白浆的不同类型及其健康隐患,如何判断是否需要就医?

2025/01/19

4
91国产白浆洗澡背后隐藏的疑问:吊死重是什么?有何风险?

91国产白浆洗澡背后隐藏的疑问:吊死重是什么?有何风险?

2025/01/07

5
为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量?如何改善宝宝睡眠?

为什么宝宝睡前C1V1好满会影响宝宝的睡眠质量?如何改善宝宝睡眠?

2024/12/07

6
爆喷水洗澡91:怎样的沐浴体验能让你放松又舒适?

爆喷水洗澡91:怎样的沐浴体验能让你放松又舒适?

2025/01/19

7
“别c我 啊 嗯上课呢双性”:这背后的网络文化与社交现象是什么?

“别c我 啊 嗯上课呢双性”:这背后的网络文化与社交现象是什么?

2025/01/15

8
《可不可以干湿你》:顾青州与觅芽子的深情纠葛,探索情感与生活的多重维度

《可不可以干湿你》:顾青州与觅芽子的深情纠葛,探索情感与生活的多重维度

2025/01/02

9
欧洲尺码与日本尺码专线对照,为何流畅不卡顿?

欧洲尺码与日本尺码专线对照,为何流畅不卡顿?

2024/12/10

10
如何在8848高清电影电视剧免费看平台上找到最新的影视资源?这里有你不知道的小技巧!

如何在8848高清电影电视剧免费看平台上找到最新的影视资源?这里有你不知道的小技巧!

2025/01/16