最新全球模型榜单：阿里 Qwen25-Max超DeepSeek V3

时间： 2025-03-18 18:19:03 来源：工程案例

　　比赛升温！最新全球大模型榜单发布，阿里新模型逾越DeepSeek V3。

　　当地时间2月4日，在全球闻名的AI模型评测渠道Chatbot Arena发布了最新一期的榜单。其间，阿里通义千问团队的最新大言语模型Qwen2.5-Ma获得了优异成果，在整体排名中跻身第7，抢先于DeepSeek V3、O1-Mini和Claude-3.5-Sonnet等尖端专有大言语模型。

　　别离看打分项，Qwen2.5-Max在技能领域体现尤为超卓，在数学和编程方面排名榜首，在处理杂乱使命的硬提示（hard prompts）方面排名第二。

　　曩昔一年，阿里持续扩展Qwen模型宗族，推出了包含文本、音频和视觉格局的多种规划模型，以满意全球开发者和客户日渐增加的AI需求。

　　1月29日清晨，阿里通义千问团队悄然上线-Max，该模型一经发布便在MMLU-Pro、LiveCodeBench、LiveBench和Arena-Hard等首要基准测验中获得抢先成果，展现出与全球尖端模型比肩的功用。

　　据介绍，最新的Qwen2.5-Max采用了先进的专家混合（MoE）模型架构，预练习数据量逾越20万亿个token，运用监督微调（SFT）和人类反应强化学习（RLHF）技能来优化，在常识、编程、通用才能和人类对齐等方面体现优异。

　　现在，全球开发者和企业可通过阿里云的生成式AI开发渠道Model Studio拜访Qwen2.5-Max。

　　，此前过度聚集DeepSeek，却忽视了包含阿里通义在内的我国AI整体性追逐。职业媒体《信息平权》表明，若阿里Qwen-2.5-max这次确实功用逾越V3，可以对其RL推理模型给予更大等待。

　　有网友生动地归纳，Qwen2.5-Max相当于“中文版的ChatGPT”，但水平要比后者“高得多”。

　　有用户表明，Qwen2.5-Max“从头界说”了视频生成功用，已逾越OpenAI的Sora。

　　还有网友制作梗图，猜想继DeepSeek-R1后，这款来自我国的强壮AI模型将进一步加重OpenAI的忧虑。