阿里巴巴方面最新消息显示,正式发布千问旗舰推理模型Qwen3-Max-Thinking。
据了解,通过总参数、强化学习、推理计算的规模扩展,千问新模型刷新了科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录。
千问最强模型出炉
1月27日早间,阿里云官方微信公众平台消息显示,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking。该模型总参数量超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。
在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19个公认的大模型基准测试中,千问旗舰推理模型刷新了数项最佳表现(SOTA)纪录,整体性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro 。
与此同时,面向即将到来的智能体Agent时代,Qwen3-Max-Thinking也增强着自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,阿里通义团队对模型进一步在大量多样化任务上,进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。
这种自适应的工具调用能力可在QwenChat上体验,模型自主选用搜索、个性化记忆和代码解释器等三个核心的Agent工具功能,模型幻觉也有所降低。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户均可体验。
千问APP已接入生态
稍早前,阿里于1月15日正式官宣,千问APP全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,实现点外卖、购物、订机票等AI购物功能,并向所有用户开放测试。与此同时,千问APP任务助理开启邀测。
阿里巴巴集团副总裁吴嘉透露,此次升级将上线超过400项AI办事功能。“AI在拥有超强大脑之后,开始长出了能够触达真实世界的手和脚,在生活中实实在在地替用户‘干活’。”吴嘉表示,AI办事时代才刚刚开始,一些能力还在探索。
券商中国记者实测发现,在下载最新版千问APP后,用户通过应用左下角选择“我的”-“应用授权管理”,便可打开淘宝、淘宝闪购、飞猪、支付宝、支付宝AI付等授权,调用相应权限。
吴嘉表示,对于消费场景,互联网上的营销信息繁杂、噪音巨大,而如何训练模型的理解分辨能力很关键。千问APP在依靠世界知识的基础上,还可以利用阿里巴巴的交易和服务数据来增强模型,从而保障AI购物功能保持客观和准确。
生活服务层面,千问APP已接入支付宝政务服务,并实现跨应用协同能力,例如调用飞猪能力完成机票酒店的预订,调用高德完成行程规划等。
据了解,基于千问底层技术能力,千问 “任务助理”功能在APP和Web端已经启动定向邀测。该功能具备类人化的多步骤规划能力,覆盖应用开发、Office办公、咨询调研及生活办事等核心场。测试结束后,该功能将面向用户免费开放。
早前就有知情人士透露,在未来几个月内,阿里巴巴将在千问应用中逐步增加智能体AI(agentic-AI)功能,以支持包括主要淘宝市场在内的平台上的购物功能。
如今看来,上述进程已经逐步实现。
“阿里巴巴计划最终通过海外版本向全球扩张。”早前知情人士表示,在过去几个月里,阿里巴巴CEO吴泳铭已从各部门调集了超过百名开发人员投入到此次项目中。
这也是2025年阿里宣布的额外AI基础设施投入的一部分。吴泳铭此前概述自己推出新模型和“全栈”AI技术的计划,这反映了阿里巴巴既要开发服务,也要开发支撑该技术的基础设施的意图。
从AGI迈向ASI
吴泳铭曾在去年的云栖大会上表示,大模型是下一代操作系统,而AI云是下一代计算机。也许未来全世界只会有五六个超级云计算平台。如今阿里正积极推进3800亿元的AI基础设施建设,并计划追加更大的投入。
吴泳铭认为,实现AGI(通用人工智能)已是确定性事件,但这仅是起点,终极目标是发展出能自我迭代、全面超越人类的ASI(超级人工智能),以解决气候、能源、星际旅行等重大科学难题。
通往超级人工智能之路分为三个阶段:一是“智能涌现”,AI通过学习人类知识具备泛化智能;二是“自主行动”,AI掌握工具使用和编程能力以“辅助人”,这是行业当前所处的阶段;三是“自我迭代”,AI通过连接物理世界的全量原始数据,实现自主学习,最终能够“超越人”。
吴泳铭彼时还提到,在AGI到ASI的巨大变革中,大模型将是下一代的操作系统,“并不是说大模型替代了Windows或者说Linux这样的操作系统。而是大模型以及相关的系统,在整个物理世界和数字世界的交互当中,将承载现有操作系统的地位。未来几乎所有链接真实世界的工具接口,都将与大模型进行连接,所有用户需求和行业应用将会通过大模型相关的工具执行任务”。