AIGC宇宙 AIGC宇宙

中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目

据介绍,TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。
感谢AI在线从中国电信人工智能研究院获悉,其“复杂推理大模型”TeleAI-t1-preview 现已正式发布,即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

官方表示,在美国数学竞赛 AIME 2024 、MATH500 两项数学基准评测中,TeleAI-t1-preview 分别以 60 和 93.8 分的成绩,大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 得分超过 GPT-4o,并比肩 Claude 3.5 Sonnet 的性能水准。

中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目

评测显示,将《九章算术》中的一道题目给到 TeleAI-t1-preview 后,其能够先针对文言文进行理解和简化,再转换成现代汉语,随之给出数学推导和答案。

图片

图片

据介绍,在此过程中,TeleAI-t1-preview 可将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。不仅如此,其还能够严谨地进行古今单位换算。

TeleAI 引入了创新的训练策略,从而保障思考推理过程准确有效。

  • 数据准备阶段:收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集,确保模型能够适应不同类型的推理任务。

  • Judge Model(评估模型):训练了一个 Judge Model 专门用于分析和评估模型长思考链路的正确性,为模型的反思和错误修正提供指导。

  • SFT(监督微调)阶段:用 MCTS(蒙特卡洛树搜索)构造高质量长推理数据,结合每个步骤的准确率和解决方案长度来选择最优的完整路径,在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用 Judge Model 对推理过程中正确率较低的路径进行分析,引导模型对错误的推理步骤进行反思和修正,从而构造出高质量的思维链数据进行 SFT 训练。

  • 强化学习阶段:额外构造了 Rule-based Reward Model(基于规则的奖励模型),以提供足够准确的奖励信号,通过在线强化学习算法进一步提升模型的逻辑推理能力。

相关资讯

腾讯云上线DeepSeek全系API接口并打通联网搜索

腾讯云宣布完成对深度求索(DeepSeek)大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口,并创新性接入自研大模型知识引擎,同步开放联网搜索能力。 凭借腾讯云在推理并发和生成速率等方面的优化,用户可以获得更加稳定、安全、低门槛的使用体验。 开发者只需在云上简单三步即可实现API接口调用,并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力,灵活构建专属的AI服务。
2/8/2025 2:09:00 PM
AI在线

微信搜索接入DeepSeek大模型 称AI不会使用朋友圈聊天等信息

近日,微信宣布其搜索功能接入 DeepSeek-R1模型,目前处于灰度测试阶段。 部分用户在微信搜索框选择 AI 搜索时,可体验到 DeepSeek-R1提供的深度思考功能。 微信方面表示,引入大模型旨在提升搜索的智能化和精准度,更好地理解用户搜索意图,分析处理复杂查询。
2/19/2025 11:18:00 AM
AI在线

DeepSeek-R1 登顶 Hugging Face:以10000 赞力压 150 万个模型

今日凌晨,全球最大开源平台之一 Hugging Face 的首席执行官 Clement Delangue 在社交平台发文宣布,DeepSeek-R1在 Hugging Face 上获得了超过10000个赞,成为该平台近150万个模型中最受欢迎的大模型。 这一里程碑式的成就标志着 DeepSeek-R1在全球 AI 社区中的广泛认可与影响力。 DeepSeek-R1的崛起速度令人瞩目。
2/24/2025 9:30:00 AM
AI在线
testab