小米集團旗下大模型研究團隊近日透過官方公眾號宣布,推出首個專為推理(Reasoning)設計的開源大語言模型「Xiaomi MiMo」。這款創新模型採用從預訓練到後訓練的聯動優化架構,在保持高效參數規模的同時,顯著提升各類複雜推理任務的表現。
特別值得注意的是,在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)等權威公開評測集中,僅具備70億參數規模的MiMo-7B版本,其性能表現不僅超越OpenAI的閉源推理模型o1-mini,更勝過阿里巴巴規模更大的開源推理模型Qwen-32B-Preview,展現出卓越的技術突破。
當前AI產業正經歷強化學習(RL)技術的快速發展期,DeepSeek-R1系列的推出已引發業界廣泛的協同創新熱潮。DeepSeek-R1-Distill-7B和Qwen2.5-32B等模型已成為開發者進行強化學習應用的主流基礎模型。小米MiMo-7B在相同RL訓練數據條件下,展現出在數學推導與代碼生成領域明顯優越的強化學習潛力,這項技術優勢或預示開源模型在專業領域應用的新可能。