比赛升温!最新全球大模型榜单发布,阿里新模型逾越DeepSeek V3。
当地时间2月4日,在全球闻名的AI模型评测渠道Chatbot Arena发布了最新一期的榜单。其间,阿里通义千问团队的最新大言语模型Qwen2.5-Ma获得了优异成果,在整体排名中跻身第7,抢先于DeepSeek V3、O1-Mini和Claude-3.5-Sonnet等尖端专有大言语模型。
别离看打分项,Qwen2.5-Max在技能领域体现尤为超卓,在数学和编程方面排名榜首,在处理杂乱使命的硬提示(hard prompts)方面排名第二。
曩昔一年,阿里持续扩展Qwen模型宗族,推出了包含文本、音频和视觉格局的多种规划模型,以满意全球开发者和客户日渐增加的AI需求。
1月29日清晨,阿里通义千问团队悄然上线-Max,该模型一经发布便在MMLU-Pro、LiveCodeBench、LiveBench和Arena-Hard等首要基准测验中获得抢先成果,展现出与全球尖端模型比肩的功用。
据介绍,最新的Qwen2.5-Max采用了先进的专家混合(MoE)模型架构,预练习数据量逾越20万亿个token,运用监督微调(SFT)和人类反应强化学习(RLHF)技能来优化,在常识、编程、通用才能和人类对齐等方面体现优异。
现在,全球开发者和企业可通过阿里云的生成式AI开发渠道Model Studio拜访Qwen2.5-Max。
,此前过度聚集DeepSeek,却忽视了包含阿里通义在内的我国AI整体性追逐。职业媒体《信息平权》表明,若阿里Qwen-2.5-max这次确实功用逾越V3,可以对其RL推理模型给予更大等待。
有网友生动地归纳,Qwen2.5-Max相当于“中文版的ChatGPT”,但水平要比后者“高得多”。
有用户表明,Qwen2.5-Max“从头界说”了视频生成功用,已逾越OpenAI的Sora。
还有网友制作梗图,猜想继DeepSeek-R1后,这款来自我国的强壮AI模型将进一步加重OpenAI的忧虑。