logo

Qwen 3.6 Plus Alibaba 1M context agentic coding 实操

背景

3 月底阿里巴巴 Qwen 团队发布了 Qwen 3.6 Plus,这是国产大模型第一次在 agent 编码能力的核心 benchmark 上超越 Claude 4.5 Opus:Terminal-Bench 2.0 跑出 61.6 分,对比 Claude 的 59.3。再加上 SWE-bench Verified 78.8、MCPMark 48.2%、原生 1M token 上下文窗口,Qwen 3.6 Plus 已经是全球第一梯队的 agentic coding 模型。最关键的一条:模型已经免费上线 OpenRouter,API 价格大约是 Claude Sonnet 同档的三分之一。

对于成本敏感、长上下文需求强烈的开发者来说,这是过去半年里最值得真正测一遍的国产模型。

为什么你应该关注

Claude 4.5 Opus 在过去半年是大多数开发者的默认 agent 编码模型,但价格和限流是两个永远的痛。Qwen 3.6 Plus 的出现让"切换 provider"第一次变成一个理性选项,而不是性能妥协。

1M 上下文不是噱头。 大部分模型号称的"长上下文"都需要 yarn、RoPE scaling 或滑动窗口拼接,效果会随长度衰减。Qwen 3.6 Plus 是原生 1M——意味着把整本《设计模式》塞进去做 RAG-free 问答、把一个 50 万行的 codebase 一次性丢进去做架构重构、把一年的 commit 历史交给它分析,这些场景终于跑得动了。

agent 能力全方位补齐。 之前国产模型的痛点是 function calling 不稳定、tool use 容易乱来。Qwen 3.6 Plus 的 MCPMark 拿到 48.2% 直接领先全场,意味着它在 MCP 协议下的工具调用可靠性达到了生产级别。Cursor、Cline、Aider 这些主流 agent 工具都已经在添加 Qwen provider 支持。

价格曲线杀手级。 OpenRouter 上 Qwen 3.6 Plus 的 input/output 大致是 Claude Sonnet 4.6 的 30%,且有免费额度可以直接试。对于做 batch 处理、合成数据生成、大规模 evaluation 这类调用量大的场景,成本差距能直接决定项目能不能跑得起来。

实操指南

一、用 OpenRouter 5 分钟接入

OpenRouter 是最快的入口,不用申请阿里云账号,直接拿 API key 就能调。

# 注册 openrouter.ai 拿 key
export OPENROUTER_API_KEY="sk-or-v1-xxxxx"

Python 示例(直接用 OpenAI SDK 兼容接口):

from openai import OpenAI

client = OpenAI( base_url="https://openrouter.ai/api/v1", api_key=os.environ["OPENROUTER_API_KEY"], )

response = client.chat.completions.create( model="qwen/qwen3.6-plus", messages=[ {"role": "system", "content": "You are an expert Python engineer."}, {"role": "user", "content": "重构这段代码,让它可以并发处理 ..."}, ], max_tokens=8000, temperature=0.2, )

print(response.choices[0].message.content)

注意几个关键参数:

  • temperature=0.2 对编码任务最稳,不要用默认 0.7
  • max_tokens 设大一点,Qwen 输出比 Claude 略长
  • 不要传 tools=[],会触发 schema validation 错误,要么不传要么传完整的 tool 定义

二、把 Qwen 3.6 Plus 接进 Cursor

Cursor 0.45 之后支持自定义 OpenAI 兼容 endpoint,配置很简单:

1. Settings → Models → Add Model 2. Model Name: qwen/qwen3.6-plus 3. Base URL: https://openrouter.ai/api/v1 4. API Key: 你的 OpenRouter key 5. 勾选 "Verify Model"

之后在 Composer 或 Chat 里就能直接选 Qwen 作为主模型。实测在大型 monorepo 里做跨文件重构,Qwen 3.6 Plus 的速度比 Claude Sonnet 4.6 略慢,但准确率接近,1M 上下文允许它一次性看完更多文件——这点对大型项目是显著优势。

三、agent 工作流:用 Qwen 跑 Aider

Aider 是开源的 CLI agent,对 OpenAI 兼容 endpoint 支持原生:

pip install aider-chat

aider \ --model openrouter/qwen/qwen3.6-plus \ --openai-api-base https://openrouter.ai/api/v1 \ --openai-api-key $OPENROUTER_API_KEY \ src/

Aider 的 /architect 模式特别适合 Qwen 的强项:先用 Qwen 做架构层面的推理(吃 1M 上下文),再用更便宜的模型(比如 Qwen Turbo 或 GPT-4.1 mini)做具体编辑实现。这种 "planner + executor" 拆分能把成本再压一半。

四、benchmark 自己的场景

不要只看公开 benchmark,跑一遍你自己业务的 case:

test_cases = [
    "given_legacy_code_refactor_to_async",
    "explain_this_500_line_sql_query",
    "find_bug_in_distributed_system_logs",
    # ... 你自己的业务场景
]

for case in test_cases: qwen_result = run_with(model="qwen/qwen3.6-plus", task=case) claude_result = run_with(model="anthropic/claude-sonnet-4.6", task=case) # 人工评分或用 LLM-as-judge

实测下来,Qwen 在以下场景比 Claude 更好:长仓库分析、SQL 优化、中文文档理解、价格敏感的 batch 任务。Claude 仍然在以下场景占优:复杂的 multi-file 重构、需要严格遵守 prompt 的场景、function calling 的 edge case。

常见问题

Q: Qwen 3.6 Plus 和 DeepSeek V3.2 怎么选? DeepSeek V3.2 在纯推理(数学、形式化逻辑)上仍然略胜一筹,价格也更低。Qwen 3.6 Plus 的强项在 agent 工具调用、长上下文和多模态。如果你做 coding agent,选 Qwen;如果你做数学解题或形式验证,选 DeepSeek。

Q: 1M 上下文真的能用满吗,性能不会衰减吗? 官方的 needle-in-a-haystack 测试在 1M 长度上准确率仍超过 95%。实际使用中我建议把单次输入控制在 500K 以内,留给输出和 reasoning 一些空间。超过 800K 的输入响应延迟会明显上升。

Q: 数据安全问题怎么办?我在做企业项目能用 Qwen 吗? OpenRouter 是中转商,对企业敏感数据不建议走它。可以直接用阿里云百炼(Bailian)的国内 endpoint,或者用 vLLM + Qwen 3.6 Plus 的开源权重自部署(需要 8×H100)。后者完全本地、无外发。

JR Academy 相关资源

如果你想系统掌握 LLM、agent 工程和模型选型方法论,可以看看:

我们也会持续在 JR Academy 博客 更新主流模型的实战评测,欢迎订阅。

JR Academy · Blog职业洞察

Qwen 3.6 Plus 实战:1M 上下文 agent 编码模型替代 Claude 指南

阿里 Qwen 3.6 Plus 在 Terminal-Bench 2.0 跑出 61.6 分超越 Claude 4.5 Opus,原生 1M 上下文,价格只有 Claude 三分之一。本文给出从 OpenRouter 接入、Cursor 配置到 agent 工作流的完整实操。

发布日期
阅读时长2 分钟
作者

Qwen 3.6 Plus Alibaba 1M context agentic coding 实操

背景

3 月底阿里巴巴 Qwen 团队发布了 Qwen 3.6 Plus,这是国产大模型第一次在 agent 编码能力的核心 benchmark 上超越 Claude 4.5 Opus:Terminal-Bench 2.0 跑出 61.6 分,对比 Claude 的 59.3。再加上 SWE-bench Verified 78.8、MCPMark 48.2%、原生 1M token 上下文窗口,Qwen 3.6 Plus 已经是全球第一梯队的 agentic coding 模型。最关键的一条:模型已经免费上线 OpenRouter,API 价格大约是 Claude Sonnet 同档的三分之一。

对于成本敏感、长上下文需求强烈的开发者来说,这是过去半年里最值得真正测一遍的国产模型。

为什么你应该关注

Claude 4.5 Opus 在过去半年是大多数开发者的默认 agent 编码模型,但价格和限流是两个永远的痛。Qwen 3.6 Plus 的出现让"切换 provider"第一次变成一个理性选项,而不是性能妥协。

1M 上下文不是噱头。 大部分模型号称的"长上下文"都需要 yarn、RoPE scaling 或滑动窗口拼接,效果会随长度衰减。Qwen 3.6 Plus 是原生 1M——意味着把整本《设计模式》塞进去做 RAG-free 问答、把一个 50 万行的 codebase 一次性丢进去做架构重构、把一年的 commit 历史交给它分析,这些场景终于跑得动了。

agent 能力全方位补齐。 之前国产模型的痛点是 function calling 不稳定、tool use 容易乱来。Qwen 3.6 Plus 的 MCPMark 拿到 48.2% 直接领先全场,意味着它在 MCP 协议下的工具调用可靠性达到了生产级别。Cursor、Cline、Aider 这些主流 agent 工具都已经在添加 Qwen provider 支持。

价格曲线杀手级。 OpenRouter 上 Qwen 3.6 Plus 的 input/output 大致是 Claude Sonnet 4.6 的 30%,且有免费额度可以直接试。对于做 batch 处理、合成数据生成、大规模 evaluation 这类调用量大的场景,成本差距能直接决定项目能不能跑得起来。

实操指南

一、用 OpenRouter 5 分钟接入

OpenRouter 是最快的入口,不用申请阿里云账号,直接拿 API key 就能调。

# 注册 openrouter.ai 拿 key
export OPENROUTER_API_KEY="sk-or-v1-xxxxx"

Python 示例(直接用 OpenAI SDK 兼容接口):

from openai import OpenAI

client = OpenAI( base_url="https://openrouter.ai/api/v1", api_key=os.environ["OPENROUTER_API_KEY"], )

response = client.chat.completions.create( model="qwen/qwen3.6-plus", messages=[ {"role": "system", "content": "You are an expert Python engineer."}, {"role": "user", "content": "重构这段代码,让它可以并发处理 ..."}, ], max_tokens=8000, temperature=0.2, )

print(response.choices[0].message.content)

注意几个关键参数:

  • temperature=0.2 对编码任务最稳,不要用默认 0.7
  • max_tokens 设大一点,Qwen 输出比 Claude 略长
  • 不要传 tools=[],会触发 schema validation 错误,要么不传要么传完整的 tool 定义

二、把 Qwen 3.6 Plus 接进 Cursor

Cursor 0.45 之后支持自定义 OpenAI 兼容 endpoint,配置很简单:

1. Settings → Models → Add Model 2. Model Name: qwen/qwen3.6-plus 3. Base URL: https://openrouter.ai/api/v1 4. API Key: 你的 OpenRouter key 5. 勾选 "Verify Model"

之后在 Composer 或 Chat 里就能直接选 Qwen 作为主模型。实测在大型 monorepo 里做跨文件重构,Qwen 3.6 Plus 的速度比 Claude Sonnet 4.6 略慢,但准确率接近,1M 上下文允许它一次性看完更多文件——这点对大型项目是显著优势。

三、agent 工作流:用 Qwen 跑 Aider

Aider 是开源的 CLI agent,对 OpenAI 兼容 endpoint 支持原生:

pip install aider-chat

aider \ --model openrouter/qwen/qwen3.6-plus \ --openai-api-base https://openrouter.ai/api/v1 \ --openai-api-key $OPENROUTER_API_KEY \ src/

Aider 的 /architect 模式特别适合 Qwen 的强项:先用 Qwen 做架构层面的推理(吃 1M 上下文),再用更便宜的模型(比如 Qwen Turbo 或 GPT-4.1 mini)做具体编辑实现。这种 "planner + executor" 拆分能把成本再压一半。

四、benchmark 自己的场景

不要只看公开 benchmark,跑一遍你自己业务的 case:

test_cases = [
    "given_legacy_code_refactor_to_async",
    "explain_this_500_line_sql_query",
    "find_bug_in_distributed_system_logs",
    # ... 你自己的业务场景
]

for case in test_cases: qwen_result = run_with(model="qwen/qwen3.6-plus", task=case) claude_result = run_with(model="anthropic/claude-sonnet-4.6", task=case) # 人工评分或用 LLM-as-judge

实测下来,Qwen 在以下场景比 Claude 更好:长仓库分析、SQL 优化、中文文档理解、价格敏感的 batch 任务。Claude 仍然在以下场景占优:复杂的 multi-file 重构、需要严格遵守 prompt 的场景、function calling 的 edge case。

常见问题

Q: Qwen 3.6 Plus 和 DeepSeek V3.2 怎么选? DeepSeek V3.2 在纯推理(数学、形式化逻辑)上仍然略胜一筹,价格也更低。Qwen 3.6 Plus 的强项在 agent 工具调用、长上下文和多模态。如果你做 coding agent,选 Qwen;如果你做数学解题或形式验证,选 DeepSeek。

Q: 1M 上下文真的能用满吗,性能不会衰减吗? 官方的 needle-in-a-haystack 测试在 1M 长度上准确率仍超过 95%。实际使用中我建议把单次输入控制在 500K 以内,留给输出和 reasoning 一些空间。超过 800K 的输入响应延迟会明显上升。

Q: 数据安全问题怎么办?我在做企业项目能用 Qwen 吗? OpenRouter 是中转商,对企业敏感数据不建议走它。可以直接用阿里云百炼(Bailian)的国内 endpoint,或者用 vLLM + Qwen 3.6 Plus 的开源权重自部署(需要 8×H100)。后者完全本地、无外发。

JR Academy 相关资源

如果你想系统掌握 LLM、agent 工程和模型选型方法论,可以看看:

我们也会持续在 JR Academy 博客 更新主流模型的实战评测,欢迎订阅。

作者
一键分享或复制链接

相关文章推荐

查看全部文章 →