阿里巴巴通义千问 Qwen3-Next 来了:更快、更强、更高效

阿花

近日,阿里巴巴通义千问团队正式推出了全新的 Qwen3-Next 模型架构,并同步开源了基于这一架构的 Qwen3-Next-80B-A3B 系列模型。

相比上一代产品,新版本在训练成本、推理效率以及超长上下文处理能力上都有大幅提升,引发了业界广泛关注。

更高效的模型设计

Qwen3-Next 的总参数量达到 800 亿,但在实际推理过程中只需激活 约 30 亿 参数。这得益于其架构上的多项创新:

  • 混合注意力机制:让模型在不同场景下更高效地处理信息。

  • 高稀疏度专家混合结构(MoE):在保证性能的同时显著降低计算开销。

  • 多 token 预测机制:提升长文本推理的吞吐效率。

  • 训练稳定性优化:在大规模训练过程中更稳定、更高效。

这些改进不仅提升了模型在复杂任务中的表现,也让其在资源消耗上更具优势。

阿里巴巴通义千问 Qwen3-Next 来了:更快、更强、更高效

性能提升一览

根据公开报道,Qwen3-Next 相比上一代 dense 模型 Qwen3-32B,在多个方面有明显提升:

  • 训练成本:降低约 90%

  • 推理效率:在一般场景中速度提升数倍,在 超长文本(32K token 以上) 场景下,吞吐率提升 超过 10 倍

  • 性能表现:在多数下游任务中,Qwen3-Next 的基础版(Base)已经超越 Qwen3-32B-Base。

特别是在 超长上下文处理 方面,Qwen3-Next 拥有明显优势,这对于法律文书、科研论文、大规模代码库等场景都有重要意义。

多版本满足不同需求

此次开源的 Qwen3-Next-80B-A3B 系列包含多个版本,适配不同任务:

  • Base:通用版本,用于研究与基线对比。

  • Instruct:指令调优版本,更适合对话、问答、命令执行等场景。

  • Thinking:强化推理能力的版本,专注复杂推理任务,在部分测试中表现超过前代模型,甚至超过部分闭源大模型。

阿里巴巴通义千问 Qwen3-Next 来了:更快、更强、更高效

开源与应用

阿里巴巴已将 Qwen3-Next 系列全面开源,开发者和研究者可在 Hugging Face、魔搭社区 下载模型,也可通过 阿里云百炼平台 API 或 通义千问 直接体验。

这一开放举措,不仅推动学术研究,也加速产业落地,尤其适合法律、科研、教育等需要处理超长文本的场景。

写在最后:Qwen3‑Next 的价值与前景

Qwen3‑Next 的发布,体现了阿里巴巴通义千问在国产大模型研发上的新突破:

  • 技术升级:在效率、成本、长文本处理能力上实现明显提升。

  • 产业应用价值:低成本、高效率的特性,使模型更适合企业部署和行业落地。

  • 开源生态:开放下载和 API 接入,助力研究者和开发者进行二次开发和创新。

  • 可持续发展:高效架构降低资源消耗,符合行业对绿色 AI 的期待,也便于持续迭代和优化。

可以说,Qwen3‑Next 不仅是一款性能强大的大模型,更是阿里巴巴在 AI 产业布局中,为企业和开发者提供的一张“新名片”,标志着国产大模型在效率、应用落地和开放生态上的新高度。

来源:金色财经

目录[+]