type
Post
status
Published
date
slug
summary
tags
category
AI资讯
icon
password
Meta FAIR实验室提出SOAR架构,通过让AI模型(教师模型)生成大量包含错误答案但逻辑结构合理的“垫脚石”问题,来训练另一个模型(学生模型)。学生模型在解答这些“有毒”问题的过程中,其推理能力得到实质性锻炼,最终在原本无法解决的“Fail@128”超高难度数学推理数据集(MATH和HARP)上实现了突破,性能提升达9.3%。该方法不依赖海量算力采样(如DeepSeek R1)或人工清洗的高质量数据(如OpenAI o1),而是通过内部博弈和有根奖励机制,让AI在“错误”中自我进化,为应对高质量数据枯竭问题提供了新思路。
AI安全警报:Claude被曝可绕过权限限制,DeepMind警告互联网已成AI“猎杀场”Anthropic年化收入首超OpenAI达300亿美元,与谷歌、博通合作打造3.5 GW TPU算力集群
Loading...