品玩1月20日讯,据阶跃星辰官方消息,自研推理模型 Step Reasoner mini现已上线、该模型在 AIME 和 Math 等数学基准测试上成绩超过了 o1-preview。
Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。
Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。
阶跃星辰推理模型 Step R-mini 上线:AIME 等数学基准测试成绩超 o1-preview
18小时前品玩1月20日讯,据阶跃星辰官方消息,自研推理模型 Step Reasoner mini现已上线、该模型在 AIME 和 Math 等数学基准测试上成绩超过了 o1-preview。
Step Reasoner mini 通过大规模的强化学习训练,并使用 On-Policy(同策略)强化学习算法,实现了“文理兼修”。
Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能富有创意地完成文学内容创作和日常聊天的任务。
下载品玩App,比99.9%的人更先知道关于「阶跃星辰」的新故事
下载品玩App
比99.9%的人更先知道关于「阶跃星辰」的新故事
0 条评论
请「登录」后评论