碾压DeepSeek!阿里Qwen3到底成色几何?

0次浏览     发布时间:2025-04-29 21:19:00    

今天(4 月 29 日)凌晨,阿里巴巴推出了 4 月压轴的一款大语言模型——Qwen3 系列。

而在这个月,Meta、字节跳动、OpenAI、Google、百度都在稍早前推出了新的大模型,OpenAI 甚至一次性拿出三款大模型,百度也在这周举行的 Create 2025 百度 AI 开发者大会上发布了两款大模型。

但在这一众新模型中,阿里还能搞出什么新意?事实上还真有,除了继续保持开源路线,Qwen3 系列作为阿里定位中的旗舰大模型,在模型性能上也有了不小的进步,再次缩小与顶尖大模型之间的能力差。

此外,Qwen3 系列还是一款混合推理模型,甚至官方博文的标题就是《Qwen3:思深,行速》。简单来说,Qwen3 支持思考模式和非思考模式,而不像 DeepSeek 深度思考下是 R1,关闭深度思考其实是 V3。

图/雷科技

关于混合推理模型,雷科技在今年 2 月就报道并介绍了首款混合推理模型,以及混合推理的优势所在,并指出:「混合推理模式」可能会成为大模型发展的下一个标准配置。

而回到阿里刚刚发布的 Qwen3 系列,作为国内首个混合推理模型,也是首个混合推理开源模型,再加上模型性能方面的进步,也难怪 Qwen3 推出仅仅四个小时后,就在全球最大开发者社区 Github 拿到了 1.7 万个 Star。

问题在于,在模型跑分越来越受争议的今天,Qwen3 系列实际上真能兑现跑分体现出的能力,以及混合推理模型的优势吗?

跑分追上顶级闭源模型,阿里 Qwen3 成色几何?

毫无疑问,Qwen3 系列最大的亮点之一就是通过引入混合推理设计,实现了同一模型的「思考模式」与「非思考模式」,阿里这次是把这两种「脑回路」都塞进了同一个模型里,还开放给用户和开发者自由选择。

非思考模式下,Qwen3 系列会充分发挥快速响应的优势,更像传统语言模型的输出方式——快速直接地生成结果。而在思考模式下,模型则会进行深入地思考和推理,比如先分解问题、做一步步的逻辑推导,再得出结论。

图/雷科技

这种架构并不是第一次被提出,但 Qwen3 系列是国内首个真正落地混合推理并完全开源的模型。

在全球范围内,除了首先采用这种设计 Claude-3.7-Sonnet,也只有 Google 在 4 月中旬才推出的 Gemini 2.5 Flash 上做出了类似尝试,包括 OpenAI 尽管早早表明了「混合推理」的目标,但仍在开发中。

不仅如此,Qwen3 系列还是一个多尺寸的系列模型,覆盖包括 0.6B、1.7B、4B、8B、14B、32B,一共 6 个尺寸的稠密模型,以及 Qwen3-30B-A3B 和 Qwen3-235B-A22B 共 2 个适用于复杂任务的 MoE 混合专家模型,并且全部支持 119 种语言和方言。

Qwen3 不只是架构上「动了脑子」,性能表现也确实有料。阿里宣称,小模型如 Qwen3-4B 的性能已可媲美上一代的 Qwen2.5-72B-Instruct,同时 MoE 模型更是在基准测试上表现出了媲美顶尖闭源模型的能力。

图/阿里

尤其是参数规模达到 2350 万亿的 Qwen3-235B-A22B,在数学推理基准 AIME25 上,得分达到 81.5,刷新开源模型纪录;在代码能力测试 LiveCodeBench 中得分超过 70,超过 Grok-3;在人类偏好评估 ArenaHard 中,得分 95.6,超过 OpenAI o1 和 DeepSeek-R1。

这些进步,在一定程度上也解释了为何 Qwen3 系列一经发布就受到社区热烈欢迎。

另一方面,Qwen3 团队还强调了 Agent 能力的增强以及对 MCP 的支持,算是顺理成章,但目前还没有看出亮眼的地方。主要可能还是,AI 开发者打造 Agent 的好选择又多了一个。

不过 Qwen3 系列当然还谈不上十全十美。在实际推理表现上,Qwen3-235B-A22B 距离今天的顶级模型还有明显的差异,实测即便在满血状态下,遇到困难问题还是容易陷入「冗长而无用」的推理中,最后的结果也不理想。

比如雷科技在 OpenAI-o3 上手测试中提出的问题,o3 可以条理清晰地回答「父亲崩溃的原因」,但 Qwen3-235B-A22B 则遇到了和 DeepSeek-R1 类似的问题——思考太久且不断重复方向,甚至没有抓住「女儿是色盲」这一关键的可能性。

图/雷科技

包括在 Hacker News 上,也有网友指出 Qwen3-235B-A22B 面对复杂问题时的表现。

图/ Hacker News

不过降低一点难度,在经典过河问题上稍作改造来提问 Qwen3-235B-A22B,询问怎么把卷心菜、山羊、狼和狮子完整拉过河。尽管采用了穷举的方式,但还是找到了安全的路径,关键是对规则的理解非常到位。

当然,时间有限我们暂时只是简单地上手,但也大体能看出 Qwen3 最强版本的「成色」,如果从基准测试的分数来看,最好还是放低一下期待。但放到今天的大模型战场来看,Qwen3 系列依然称得上最强开源模型,并且混合推理的设计也给用户和开发者带来了更灵活的选择。

放大镜下的 Qwen3,阿里的一次关键补强

放在更大的时间尺度上来看,Qwen3 系列的发布,并不仅仅是一次模型升级这么简单,而是可以看作阿里在 AI 战略上的一次重要补强。

过去两年里,阿里在大模型领域的布局其实并不算慢,通义千问体系逐步完善,开源也走得比较早。但无论是在模型的全球声量,还是在开源社区的话语权上,始终未能真正站到最前排。

在 4 月爆料 Qwen3 即将发布(虽然发布时间推迟了)的报道中,虎嗅还指出,基础模型团队在阿里内部最重要的考核维度是「模型影响力」,高层希望可以在业内成功塑造「最强模型」的心智。

想复制 DeepSeek 的影响力,很难。图/ X

不过 OpenAI、DeepSeek、Google 以及 Anthropic 等公司接连发布的强力模型,阿里此前更多是追随者角色,很难形成技术引领的姿态。Qwen3 系列的推出,无疑是一场重要的补强,也在某种程度上缓解了这种局面。

尤其是在开源模型领域,Qwen3 覆盖了从小参数到大参数、稠密模型到混合专家模型的一整套体系,支持 119 种语言和方言,同时在 Hugging Face、GitHub 等开发者社区迅速获得了不错的反响。这不仅扩展了阿里在开源生态中的存在感,也为更多模型应用、工具链建设打下了基础。

而从商业化的角度来看,Qwen3 系列也直接回应了当前模型商业应用的两大痛点:推理成本高,以及灵活适配性不足。通过引入 MoE 架构大幅降低推理成本,同时又在推理机制上支持思考与非思考的灵活切换,Qwen3 在推理效率、推理成本之间尝试找到相对平衡的位置。

对于阿里云现有的 AI 服务体系,尤其是政企、制造、金融等行业客户来说,更低的部署门槛和更高的适配灵活性,无疑可以增强阿里在大模型商业化竞争中的筹码。更重要的是,大模型能力注定是未来 AI 云竞争的「胜负手」。

图/阿里

但如果回到更理性的位置来看,Qwen3 系列仍然存在着一些明显的不足。正如前文所述,它目前仍然是一个纯文本语言模型,多模态乃至 QvQ-Max 上的视觉推理能力都尚未同步整合进来。简言之,真比最强的模型能力,Qwen3 还有不少需要改进和补足的空间。

另一方面,尽管 Qwen3 系列在推理机制上实现了创新,但在真正复杂推理问题中的稳定性和鲁棒性,相比 OpenAI、Anthropic 等顶级闭源模型,依然有不小差距。

尤其在需要长链条逻辑推理、多轮严密推导的任务上,Qwen3 的「思考」模式表现出一定的不稳定性,偶尔出现的推理偏移、冗长不聚焦的问题,也说明了目前的混合推理设计还有打磨的余地。

总而言之,在这个大模型竞争白热化的 4 月,Qwen3 的推出确实为阿里带来了一次必要且及时的升级。它不仅在性能上与顶尖模型缩小了差距,也在推理机制上探索了新的可能性,同时还有潜力帮助阿里在 AI 的商业化方向补上短板。

可见的是,大模型的竞争还会继续加剧,性能和成本依旧会是两条重要「主线」,阿里能否继续保持节奏,甚至在可以预见的「智能体爆发」中占据主动,仍然需要更多技术演进和产品落地来检验。

不过至少在今天,Qwen3 确实让阿里不容忽视。

相关文章