背景
3 月底阿里巴巴 Qwen 团队发布了 Qwen 3.6 Plus,这是国产大模型第一次在 agent 编码能力的核心 benchmark 上超越 Claude 4.5 Opus:Terminal-Bench 2.0 跑出 61.6 分,对比 Claude 的 59.3。再加上 SWE-bench Verified 78.8、MCPMark 48.2%、原生 1M token 上下文窗口,Qwen 3.6 Plus 已经是全球第一梯队的 agentic coding 模型。最关键的一条:模型已经免费上线 OpenRouter,API 价格大约是 Claude Sonnet 同档的三分之一。
对于成本敏感、长上下文需求强烈的开发者来说,这是过去半年里最值得真正测一遍的国产模型。
为什么你应该关注
Claude 4.5 Opus 在过去半年是大多数开发者的默认 agent 编码模型,但价格和限流是两个永远的痛。Qwen 3.6 Plus 的出现让"切换 provider"第一次变成一个理性选项,而不是性能妥协。
1M 上下文不是噱头。 大部分模型号称的"长上下文"都需要 yarn、RoPE scaling 或滑动窗口拼接,效果会随长度衰减。Qwen 3.6 Plus 是原生 1M——意味着把整本《设计模式》塞进去做 RAG-free 问答、把一个 50 万行的 codebase 一次性丢进去做架构重构、把一年的 commit 历史交给它分析,这些场景终于跑得动了。
agent 能力全方位补齐。 之前国产模型的痛点是 function calling 不稳定、tool use 容易乱来。Qwen 3.6 Plus 的 MCPMark 拿到 48.2% 直接领先全场,意味着它在 MCP 协议下的工具调用可靠性达到了生产级别。Cursor、Cline、Aider 这些主流 agent 工具都已经在添加 Qwen provider 支持。
价格曲线杀手级。 OpenRouter 上 Qwen 3.6 Plus 的 input/output 大致是 Claude Sonnet 4.6 的 30%,且有免费额度可以直接试。对于做 batch 处理、合成数据生成、大规模 evaluation 这类调用量大的场景,成本差距能直接决定项目能不能跑得起来。
实操指南
一、用 OpenRouter 5 分钟接入
OpenRouter 是最快的入口,不用申请阿里云账号,直接拿 API key 就能调。
# 注册 openrouter.ai 拿 key
export OPENROUTER_API_KEY="sk-or-v1-xxxxx"Python 示例(直接用 OpenAI SDK 兼容接口):
from openai import OpenAIclient = OpenAI(
base_url="https://openrouter.ai/api/v1",
api_key=os.environ["OPENROUTER_API_KEY"],
)
response = client.chat.completions.create(
model="qwen/qwen3.6-plus",
messages=[
{"role": "system", "content": "You are an expert Python engineer."},
{"role": "user", "content": "重构这段代码,让它可以并发处理 ..."},
],
max_tokens=8000,
temperature=0.2,
)
print(response.choices[0].message.content)
注意几个关键参数:
- temperature=0.2 对编码任务最稳,不要用默认 0.7
- max_tokens 设大一点,Qwen 输出比 Claude 略长
- 不要传
tools=[],会触发 schema validation 错误,要么不传要么传完整的 tool 定义
二、把 Qwen 3.6 Plus 接进 Cursor
Cursor 0.45 之后支持自定义 OpenAI 兼容 endpoint,配置很简单:
1. Settings → Models → Add Model
2. Model Name: qwen/qwen3.6-plus
3. Base URL: https://openrouter.ai/api/v1
4. API Key: 你的 OpenRouter key
5. 勾选 "Verify Model"
之后在 Composer 或 Chat 里就能直接选 Qwen 作为主模型。实测在大型 monorepo 里做跨文件重构,Qwen 3.6 Plus 的速度比 Claude Sonnet 4.6 略慢,但准确率接近,1M 上下文允许它一次性看完更多文件——这点对大型项目是显著优势。
三、agent 工作流:用 Qwen 跑 Aider
Aider 是开源的 CLI agent,对 OpenAI 兼容 endpoint 支持原生:
pip install aider-chataider \
--model openrouter/qwen/qwen3.6-plus \
--openai-api-base https://openrouter.ai/api/v1 \
--openai-api-key $OPENROUTER_API_KEY \
src/
Aider 的 /architect 模式特别适合 Qwen 的强项:先用 Qwen 做架构层面的推理(吃 1M 上下文),再用更便宜的模型(比如 Qwen Turbo 或 GPT-4.1 mini)做具体编辑实现。这种 "planner + executor" 拆分能把成本再压一半。
四、benchmark 自己的场景
不要只看公开 benchmark,跑一遍你自己业务的 case:
test_cases = [
"given_legacy_code_refactor_to_async",
"explain_this_500_line_sql_query",
"find_bug_in_distributed_system_logs",
# ... 你自己的业务场景
]for case in test_cases:
qwen_result = run_with(model="qwen/qwen3.6-plus", task=case)
claude_result = run_with(model="anthropic/claude-sonnet-4.6", task=case)
# 人工评分或用 LLM-as-judge
实测下来,Qwen 在以下场景比 Claude 更好:长仓库分析、SQL 优化、中文文档理解、价格敏感的 batch 任务。Claude 仍然在以下场景占优:复杂的 multi-file 重构、需要严格遵守 prompt 的场景、function calling 的 edge case。
常见问题
Q: Qwen 3.6 Plus 和 DeepSeek V3.2 怎么选? DeepSeek V3.2 在纯推理(数学、形式化逻辑)上仍然略胜一筹,价格也更低。Qwen 3.6 Plus 的强项在 agent 工具调用、长上下文和多模态。如果你做 coding agent,选 Qwen;如果你做数学解题或形式验证,选 DeepSeek。
Q: 1M 上下文真的能用满吗,性能不会衰减吗? 官方的 needle-in-a-haystack 测试在 1M 长度上准确率仍超过 95%。实际使用中我建议把单次输入控制在 500K 以内,留给输出和 reasoning 一些空间。超过 800K 的输入响应延迟会明显上升。
Q: 数据安全问题怎么办?我在做企业项目能用 Qwen 吗? OpenRouter 是中转商,对企业敏感数据不建议走它。可以直接用阿里云百炼(Bailian)的国内 endpoint,或者用 vLLM + Qwen 3.6 Plus 的开源权重自部署(需要 8×H100)。后者完全本地、无外发。
JR Academy 相关资源
如果你想系统掌握 LLM、agent 工程和模型选型方法论,可以看看:
- JR Academy AI 工程师课程:从模型选型、prompt 工程到 agent 落地的完整路径
- JR Wiki AI 学习路线图:免费的 LLM 应用开发指南和工具对比
- JR Academy 一对一辅导:需要 AI 转型的工程师可以预约咨询
我们也会持续在 JR Academy 博客 更新主流模型的实战评测,欢迎订阅。