Meta SOAR：用“剧毒数据”训练AI，推理能力暴涨9.3%

type

Post

status

Published

date

slug

summary

category

AI资讯

icon

password

Meta FAIR实验室提出SOAR架构，通过让AI模型（教师模型）生成大量包含错误答案但逻辑结构合理的“垫脚石”问题，来训练另一个模型（学生模型）。学生模型在解答这些“有毒”问题的过程中，其推理能力得到实质性锻炼，最终在原本无法解决的“Fail@128”超高难度数学推理数据集（MATH和HARP）上实现了突破，性能提升达9.3%。该方法不依赖海量算力采样（如DeepSeek R1）或人工清洗的高质量数据（如OpenAI o1），而是通过内部博弈和有根奖励机制，让AI在“错误”中自我进化，为应对高质量数据枯竭问题提供了新思路。