林俊旸从阿里离职后首发长文展望AI智能体时代【两砚网】

3月26日晚间，前千问大模型技术负责人林俊旸在社交平台发文，详述了他对大模型发展路线的理解及对AI下一阶段的预判。他认为过去两年重塑了行业对大模型的评估方式与核心期待。OpenAI 的 o1 表明，“思考”可以成为一种被训练出来的能力。DeepSeek-R1 证明推理式的后训练可以在原始实验室之外被复现、被扩展。这一阶段至关重要，但2025年上半年，行业焦点主要停留在“推理式思考”本身：如何让模型在推理时多想一会儿。他判断下一步是智能体式思考：为了行动而思考，在与环境交互过程中，并根据来自世界的反馈持续更新计划。

林俊旸提到，2025年初，千问团队有一个很大的野心：做一个统一的系统，让思考模式和指令模式合二为一，支持可调节的推理努力程度（类似于低/中/高推理设置），甚至能根据提示词和上下文自动推断合适的推理量，让模型自主决定何时直接回答、何时稍作思考、何时为真正困难的问题投入大量计算。概念上，这是正确的方向，但合并说起来容易，做好却极难。真正的难点在于数据。当人们谈论合并思考与指令时，往往首先想到模型侧的兼容性，更深层的问题是两种模式的数据分布和行为目标存在显著差异。在尝试平衡模型合并与提升后训练数据质量和多样性的过程中，团队并未把所有事情都做对，结果往往是在两个方向上都表现平庸：“思考”行为变得嘈杂、冗余或不够果断，而“指令”行为则变得不够清晰、不够可靠，且比商业用户实际想要的成本更高。

分开做在实践中仍然有吸引力。2025年下半年，Qwen 的2507版本发布了独立的Instruct和Thinking版本，30B和235B各一套。他的最终思考是，真正成功的合并需要一个平滑的推理力度光谱，模型能自己判断该花多少力气去想。推理链更长并不等于模型更聪明，很多时候，推理链越长，反而说明模型在乱花算力。千问团队意识到，行业正在从训练模型的时代，走向训练智能体的时代，其定义特征是跟真实世界的闭环交互。