400-000-0000

服务支持

Service support

行业动态

Qwen3是什么

Qwen3是阿里通义千问团队最新发布的大语言模型系列,属于人工智能领域的前沿成果,在模型架构、功能特性、性能表现、多语言支持、应用适配等方面均有显著提升,以下为你展开介绍:

模型架构

Qwen3系列模型包含MoE(Mixture of Experts,混合专家模型)和Dense(稠密模型)两种架构:

  • MoE架构:有30B(3B激活)和235B(22B激活)两种规模。这种架构通过将模型分解为多个专家子模型,根据输入数据的特性动态选择激活特定的专家,从而提高模型的效率和性能。

  • Dense架构:包含0.6B、1.7B、4B、8B、14B和32B这六款。Dense架构相对简单直接,所有参数在处理输入时都会被激活,适用于一些对模型复杂度要求不高但需要快速响应的场景。

功能特性

  • 思考模式/非思考模式无缝切换:Qwen3最显著的更新是引入了「思考模式/非思考模式」的无缝切换。思考模式下,模型会逐步推理,经过深思熟虑后给出最终答案,适合需要深入思考的复杂问题;非思考模式则提供快速的即时响应,适用于简单问题。用户可根据具体需求控制模型的“思考”程度,实现效果、成本、时间上的平衡。

  • 强大的Agent和代码能力:Qwen3在Agent和代码能力方面有所加强,能够更好地完成各种任务,如自动化操作、智能决策以及编写、调试和优化代码等。

  • 对MCP的更好支持:Qwen3对MCP(Model Context Protocol,模型上下文协议)有了更好的支持,方便与其他系统和服务进行集成和交互。

性能表现

  • 旗舰模型性能卓越:本次发布的旗舰模型是Qwen3-235B-A22B,在代码、数学、通用能力等基准测试中,其水平超过671B的DeepSeek R1,展现出强大的性能优势。

  • 小模型表现亮眼:对于小一点的MoE模型Qwen3-30B-A3B,其激活量只有类似规模模型的10%,但表现超过DeepSeek V3/GPT-4o。Qwen3-4B这样的小模型,也能匹敌Qwen2.5-72B-Instruct,说明Qwen3在不同规模模型上都实现了性能的大幅提升。

多语言支持

Qwen3支持了119个语种和方言,相比Qwen2支持的29种语言(中英文+27种其他语言),有了极大的扩展,能够更好地满足全球用户的需求。

训练方法

  • 预训练:Qwen3的训练数据翻倍,约36万亿个token,涵盖了119种语言和方言。这些数据来源于互联网信息的收集以及通过Qwen2.5-VL从各PDF中提取内容并改进质量。为了补充数学和编程领域的训练数据,还使用了Qwen2.5-Math和Qwen2.5-Coder生成合成数据。预训练过程分为三个阶段,第一阶段在30万亿tokens的数据上预训练,使用4K的上下文长度,帮助模型建立基本的语言技能和常识理解;第二阶段增强STEM领域(科学、技术、工程、数学)和编程任务的训练,增加5万亿tokens的数据量,提升模型的推理能力;第三阶段通过加入高质量的长文本数据,扩展上下文长度到32K,让模型能够处理更长的输入。

  • 后训练:后训练是让模型实现“逐步推理”和“快速响应”的关键,通过四个阶段的优化,使Qwen3在复杂任务和简单任务中都有出色表现。第一阶段是长链推理冷启动,通过微调多样化的推理数据,让模型具备处理复杂任务的基本能力;第二阶段利用强化学习进一步提升模型的推理能力;第三阶段实现思考模式和非思考模式融合,允许模型灵活切换工作模式;第四阶段进行通用任务强化学习,通过对20多个常见任务的强化学习微调,确保模型能够在不同应用场景下灵活应对。

应用适配

  • Qwen-Agent项目:Qwen有一个配套的Qwen-Agent项目,可以方便地使用API进行工具调用,或结合现有的工具链进行扩展,为开发者提供了更多的便利和可能性。

  • 企业智能体解决方案:以联想百应智能体为例,其接入Qwen3后全面升级智能体服务体系,从标准化场景到个性化轻定制,助力中小企业在全球竞争中脱颖而出。百创Lab将率先接入千问3,成为企业打造智能体的最佳伙伴,为企业提供更全面的AI赋能解决方案,帮助企业快速搭建部署企业专属AI应用,降低技术使用门槛,构建专属的智能生态。


seo seo