阿里巴巴于4月29日凌晨开源了新一代通义千问模型Qwen3,简称千问3。该模型参数量仅为DeepSeek-R1的三分之一,成本显著降低,性能却全面超越R1、OpenAI-o1等全球顶尖模型,成为目前最强的开源模型之一。千问3是国内首个“混合推理模型”,能够将快速和深度思考集成到同一模型中,对简单需求可以迅速给出答案,而面对复杂问题时则能进行多步骤深入分析,从而大大节省了算力消耗。
千问3采用了混合专家(MoE)架构,总参数量为235B,激活仅需22B。其预训练数据量达到36T,并在后训练阶段经过多轮强化学习,实现了非思考模式与思考模式之间的无缝整合。千问3在多个方面表现出色,包括推理能力、指令遵循、工具调用以及多语言支持等,均达到了国产及全球开源模型的新高度。例如,在AIME25奥数水平测试中,千问3获得了81.5分的成绩,刷新了开源记录;在LiveCodeBench代码能力评测中,得分超过70分,甚至超过了Grok3的表现;而在ArenaHard的人类偏好对齐评估中,以95.6分超越了OpenAI-o1及DeepSeek-R1。值得注意的是,尽管性能大幅提升,但千问3的部署成本却大幅下降,只需4张H20即可完成满血版部署,显存占用仅为性能相近模型的三分之一。
文章来源于网络。发布者:财华网,转转请注明出处:https://www.leiduan.cn/11916.html