发生了什么,千问前负责人林俊旸3月7号发朋友圈写“last day”,没提离职原因,只说为兄弟们好、为阿里云好、为集团好

频道:科技 日期: 浏览:900 作者:周晨曦

我看到林俊旸3月7号凌晨那条朋友圈的时候,手一抖,差点把手机摔了。

last day。就这三个字配上那段话。不是这几天不知道这么多人爱我,鼓掌那一下忍住泪水,为兄弟们好、为阿里云好、为集团好,虽然很多没做到位抱歉。评论里又补一句,为公司为千问,我只能做这么多啦,你们加油。

哎,挺突然的。明明前几天Qwen3.5小模型系列刚放出来,马斯克都跑去点赞,说impressive density of intelligence。社区刷屏,Hugging Face下载量蹭蹭往上窜。

结果一夜之间,核心那批人——林俊旸、郁博文、李凯新、惠彬原——几乎同时签退。惠彬原其实1月份就跑去Meta了,算是早有预兆。

我以前在实验室混的时候,最怕的就是这种发版即离职。模型刚开源,benchmark数据还没凉,负责人就交工牌。代码仓库权限一撤,PR都没法合了。去年有个小团队做多模态的,leader走的那天晚上,大家还在群里debug一个视觉token对齐的bug,第二天一看,merge request孤零零挂在那,没人接手。

阿里官方当然说团队稳定,没集体离职,没考核DAU。吴泳铭内部邮件也写了,感谢付出,成立基础模型支持小组,周靖人继续带,集团资源倾斜。听起来挺稳的。

但你想想,底层做预训练、后训练、代码模型、多模态的那批人,哪是冲着DAU去的?他们盯着的是MMLU再涨几个点,long context再稳一点,端侧推理能不能再省10%的电。

粗略估算一下,Qwen3.5系列小模型在笔记本上跑,功耗大概比同级别竞品低15-20%(这个数我样本有限,就测过几台1650和3060的机子,个人体感)。用户真正在意的不就是快不快、卡不卡、能不能塞进钉钉搜个文档秒出答案吗?

组织一转向拼快、拼接入、拼复用,资源申请就变味了。以前想自己拉几百张卡调数据、改框架,批得还算痛快。现在呢?得先证明能接进哪个to B场景,能拉多少收入。试错窗口从几个月缩到几周,很多idea跑一半就被叫停。

林俊旸他们那批人,骨子里还是想把模型做深做透,pre-train和post-train耦合得死死的,像蒸包子一样,一层一层得讲究火候。结果现在拆成水平分工,预训练一拨、后训练一拨、视觉一拨,汇报线直接变了。谁受得了?

有个工程师朋友前阵子私聊我,说得挺扎心:我们以前是米其林三星独立厨房,现在硬被塞进麦当劳流水线。汉堡好吃是好吃,但谁还想研究怎么把牛肉煎出灵魂?

(这个比喻我当时听了想笑,又笑不出来。)

说实话,我有点怀疑。阿里云毕竟是卖算力的,千问再开源、再强,最终还是得服务云收入。开源社区说损失巨大,DeepMind都公开喊话挖人了。但另一边,Qwen3.5还在迭代,API定价也挺香,每百万token输入才0.1刀出头。

开发者用着爽,生态还在扩。

到底是战略调整过程中的阵痛,还是底层技术理想和商业现实彻底撕裂?我没内部一手消息,不敢打包票。只能说,这种事在大厂AI团队里越来越常见。字节的豆包、百度的文心、腾讯的混元,哪个没死过几批核心骨干?

你有没有遇到过那种,明明技术路线走对了,但组织要你换赛道的感觉?挺憋屈的吧。

我翻了翻以前的测试记录,去年Qwen2.5刚出的时候,端侧7B模型在手机上跑,首token延迟大概1.2秒左右。现在3.5小模型系列,0.8B到9B的,社区实测下来,很多场景已经压到700ms以内。用户感知上,差这0.5秒就是天壤之别。可惜做这些优化的人,好几个现在都不在阿里了。

最后想到一个画面:林俊旸交完工牌那天,估计一个人站在电梯口,等着刷脸出门。工牌没了,门禁刷不开,得保安手动放行。身后是熟悉的工位,屏幕还亮着,终端里挂着没训完的checkpoint。没人知道下一个版本的Qwen会变成什么样。

行业里这种未完成的结局,还挺多的。