Qwen3.6-35B-A3B 출시: Agentic Coding의 새로운 지평을 여는 완벽한 로컬 오픈웨이트 LLM
Qwen3.6-35B Agentic Coding
최근 Alibaba Qwen 팀이 Qwen3.6-35B-A3B를 공개했습니다. Qwen에 관심 있는 사람이라면 이번 모델은 그냥 “새 버전이 나왔다” 정도로 볼 일이 아닙니다. 핵심은 총 35B 파라미터 규모의 모델이지만, 실제 추론 시에는 약 3B 파라미터만 활성화되는 MoE 구조라는 점입니다. 즉, 모델의 지식 용량은 크게 가져가면서도, 실행 비용은 상대적으로 낮추려는 방향성이 강하게 보입니다. Hugging Face의 공식 모델 카드에 따르면 이 모델은 Apache 2.0 라이선스로 공개되어 있으며, Transformers, vLLM, SGLang, KTransformers 등과 호환됩니다.
왜 Qwen3.6-35B-A3B가 주목받는가?
Qwen3.6-35B-A3B의 이름을 풀어보면 이 모델의 성격이 보입니다. 35B는 전체 파라미터 수를 의미합니다. A3B는 실제 토큰 처리 시 활성화되는 파라미터가 약 3B 수준이라는 의미입니다.
이것은 Mixture of Experts, 즉 MoE 구조의 장점을 적극적으로 활용한 설계입니다. 모든 파라미터를 매번 계산하는 Dense 모델과 달리, MoE 모델은 입력에 따라 일부 전문가 네트워크만 선택적으로 활성화합니다. 공식 모델 카드 기준으로 Qwen3.6-35B-A3B는 256개 Expert 중 8개 Routed Expert와 1개 Shared Expert를 활성화하는 구조를 사용합니다.
쉽게 말하면, 이 모델은 “모든 직원을 매번 회의에 부르는 회사”가 아니라, “문제에 맞는 전문가만 불러서 빠르게 처리하는 조직”에 가깝습니다.
이번 모델의 핵심은 Agentic Coding입니다
Qwen 팀은 이번 릴리스의 핵심 개선점으로 Agentic Coding을 강조합니다. 단순히 코드 한 줄을 생성하는 모델이 아니라, 프론트엔드 작업 흐름, 저장소 단위의 추론, 도구 사용, 반복 수정 같은 실제 개발 워크플로우에 더 잘 맞도록 개선되었다는 설명입니다.
공식 벤치마크에서도 이 방향성이 드러납니다. Qwen3.6-35B-A3B는 다음과 같은 코딩/에이전트 계열 벤치마크에서 강한 수치를 보입니다.
| 벤치마크 | Qwen3.6-35B-A3B |
|---|---|
| SWE-bench Verified | 73.4 |
| SWE-bench Multilingual | 67.2 |
| Terminal-Bench 2.0 | 51.5 |
| Claw-Eval Avg | 68.7 |
| NL2Repo | 29.4 |
| QwenWebBench | 1397 |
특히 Terminal-Bench 2.0에서 51.5를 기록한 점은 주목할 만합니다. 터미널 기반 작업, 저장소 탐색, 명령 실행, 수정 반복 같은 실제 개발자형 에이전트 작업에서 경쟁력이 있다는 신호로 볼 수 있습니다.
“로컬 AI” 관점에서도 매력적입니다
Qwen3.6-35B-A3B는 단순히 클라우드 API용 모델이 아닙니다. 공개된 모델 가중치가 있고, Hugging Face 모델 카드에서는 vLLM, SGLang, Transformers, KTransformers 기반 실행 방법을 안내하고 있습니다. 또한 llama.cpp, Ollama, LM Studio 계열에서 사용할 수 있는 양자화 모델 탐색 링크도 제공됩니다.
이 부분이 중요합니다. 최근 개발자들은 Claude Code, OpenCode, OpenClaw, 로컬 LLM, 사내 코드 에이전트 같은 흐름에 관심이 많습니다. 하지만 상용 폐쇄형 모델만 쓰면 다음 문제가 생깁니다.
- 첫째, 비용 예측이 어렵다.
- 둘째, 사내 코드나 고객 데이터를 외부 API로 보내야 하는 보안 문제가 있다.
- 셋째, 특정 벤더의 정책이나 요금 변경에 종속된다.
- 넷째, 모델 동작을 직접 튜닝하거나 배포 구조를 통제하기 어렵다.
Qwen3.6-35B-A3B 같은 오픈웨이트 모델은 이 문제에 대한 현실적인 대안이 될 수 있습니다. 완전히 무료로 운영된다는 뜻은 아니지만, 적어도 모델을 어디서, 어떻게, 어떤 인프라 위에서 실행할지 선택할 수 있다는 장점이 있습니다.
긴 컨텍스트도 강점입니다
Qwen3.6-35B-A3B는 기본 컨텍스트 길이가 262,144 토큰이며, 확장 시 약 1,010,000 토큰까지 지원 가능하다고 공개되어 있습니다. 공식 문서에서는 OOM 문제가 있으면 컨텍스트를 줄일 수 있지만, 복잡한 작업에서는 최소 128K 이상을 유지하는 것을 권장한다고 설명합니다.
이건 단순한 숫자 경쟁이 아닙니다. 코딩 에이전트나 문서 분석 에이전트에서 긴 컨텍스트는 매우 중요합니다. 예를 들어 다음과 같은 작업에 직접적인 영향을 줍니다.
| 작업 | 긴 컨텍스트의 의미 |
|---|---|
| 대형 저장소 분석 | 여러 파일과 구조를 한 번에 이해 가능 |
| 장애 분석 | 로그, 설정, 코드, 히스토리를 같이 읽을 수 있음 |
| 문서 기반 질의응답 | 긴 사양서나 계약서 전체를 참고 가능 |
| 에이전트 작업 | 이전 사고 과정과 수정 이력을 유지 가능 |
특히 Qwen3.6에는 Thinking Preservation이라는 옵션이 추가되어, 이전 메시지의 reasoning context를 유지하는 방향의 기능도 소개되어 있습니다. 이는 반복 개발, 디버깅, 리팩토링 같은 작업에서 매번 처음부터 다시 설명하지 않아도 되는 구조를 목표로 합니다.
멀티모달 모델이라는 점도 중요합니다
Qwen3.6-35B-A3B는 단순 텍스트 LLM이 아니라 Vision Encoder를 포함한 Causal Language Model입니다. 공식 모델 카드에서는 이미지 입력 예제와 image-text-to-text 파이프라인 사용 예제를 제공하고 있으며, vLLM/SGLang을 통한 이미지 입력 API 예제도 포함되어 있습니다.
이 말은 Qwen3.6이 다음과 같은 작업에도 활용될 수 있다는 뜻입니다.
| 활용 분야 | 예시 |
|---|---|
| UI 분석 | 화면 캡처 기반 버그 설명 |
| 문서 OCR 보조 | 이미지형 문서 해석 |
| 개발 지원 | 에러 화면, 다이어그램, 아키텍처 그림 분석 |
| 현장 업무 | 장비 사진, 계기판, 작업 화면 분석 |
LLM이 텍스트만 잘 처리하는 시대는 이미 끝나고 있습니다. 개발 에이전트도 결국 화면, 문서, 로그, 다이어그램, 코드 저장소를 함께 이해해야 합니다. Qwen3.6-35B-A3B가 멀티모달을 기본 방향으로 가져간다는 점은 이 모델의 실용성을 높입니다.
성능만 보면 “최강”이라고 말해도 될까?
여기서는 조금 냉정하게 봐야 합니다. Qwen3.6-35B-A3B는 매우 인상적인 모델이지만, 모든 영역에서 폐쇄형 최상위 모델을 압도한다고 말하기는 어렵습니다. 공식 벤치마크에서도 일부 항목은 Qwen3.5-27B나 Claude Sonnet 4.5, Gemma 계열과 엎치락뒤치락하는 모습이 있습니다. 예를 들어 vision-language 계열의 MMMU, RealWorldQA, MMBench 등에서는 강한 수치를 보이지만, 모든 벤치마크에서 일방적으로 우세한 것은 아닙니다.
따라서 이 모델의 진짜 매력은 “무조건 최고 성능”이 아니라, 다음 조합에 있습니다.
오픈웨이트 + Apache 2.0 + MoE 효율성 + 긴 컨텍스트 + 멀티모달 + Agentic Coding 성능
이 조합이 중요합니다. 특히 기업이나 개발자 입장에서는 “성능 1위인가?”보다 “내 환경에서 통제 가능하게 운영할 수 있는가?”가 더 중요할 때가 많습니다.
Qwen3.6-35B-A3B가 어필할 수 있는 대상
이 모델은 특히 다음 사용자층에게 매력적입니다.
- 로컬 LLM에 관심 있는 개발자: 로컬에서 실행 가능한 강한 오픈 모델을 찾고 있다면 Qwen3.6-35B-A3B는 당연히 테스트 대상입니다. 특히 양자화 모델이 확산되면 LM Studio, Ollama, llama.cpp 계열에서 실험하기 쉬워질 가능성이 큽니다.
- Claude Code류 개발 에이전트에 관심 있는 사람: Agentic Coding 성능이 강조된 모델이므로, 단순 챗봇보다 코드 수정, 저장소 분석, 터미널 작업, 툴 호출 기반 워크플로우에 관심 있는 사람에게 적합합니다.
- 사내 AI 도입을 검토하는 기업: 외부 API로 코드를 보내기 어려운 회사라면 오픈웨이트 모델은 큰 장점이 있습니다. vLLM이나 SGLang으로 내부 API 서버를 구성하면, OpenAI 호환 API 형태로 사내 도구와 연동하기도 쉽습니다. 공식 문서에서도 OpenAI SDK를 통한 Chat Completions API 사용 예제가 제공됩니다.
- 긴 문서와 대형 코드베이스를 다루는 팀: 262K 기본 컨텍스트는 대형 코드베이스, 사양서, 로그 분석에 유리합니다. 물론 긴 컨텍스트를 실제 운영하려면 GPU 메모리와 KV cache 비용을 고려해야 하지만, 모델 자체가 긴 컨텍스트를 전제로 설계되어 있다는 점은 분명한 장점입니다.
주의할 점도 있습니다
Qwen3.6-35B-A3B를 무조건 “가볍다”고 오해하면 안 됩니다. 활성 파라미터가 3B 수준이라고 해서 3B Dense 모델처럼 아무 장비에서나 쉽게 돈다는 뜻은 아닙니다.
전체 모델 파라미터는 35B급이고, BF16 기준 모델 크기도 큽니다. 긴 컨텍스트까지 제대로 쓰려면 GPU 메모리 요구량은 상당히 올라갑니다. 공식 vLLM/SGLang 예제도 262K 컨텍스트 실행에 대해 tensor parallel 8 GPU 구성을 제시합니다.
즉, 이 모델은 “초경량 모델”이라기보다는 큰 모델의 지능과 작은 활성 계산량 사이의 균형을 노린 모델로 보는 것이 맞습니다.
결론: 오픈 모델 진영의 중요한 신호
Qwen3.6-35B-A3B는 단순히 벤치마크 점수가 높은 모델이 아닙니다. 이 모델이 중요한 이유는 오픈웨이트 모델이 점점 더 실제 개발 워크플로우, 에이전트 작업, 멀티모달 이해, 긴 컨텍스트 처리 쪽으로 이동하고 있다는 점을 보여주기 때문입니다.
정리하면 Qwen3.6-35B-A3B의 가치는 다음과 같습니다.
| 포인트 | 의미 |
|---|---|
| 35B total / 3B active | 큰 지식 용량과 낮은 활성 계산량의 절충 |
| MoE 구조 | 효율적인 추론 설계 |
| Agentic Coding 강화 | 코드 에이전트와 개발 자동화에 적합 |
| Vision Encoder 포함 | 이미지/텍스트 멀티모달 처리 가능 |
| 262K 기본 컨텍스트 | 대형 문서·저장소 분석에 유리 |
| Apache 2.0 | 상업적 활용 가능성이 높음 |
| vLLM/SGLang 호환 | 배포와 실험이 쉬움 |
Qwen에 관심 있는 사람이라면 이번 모델은 반드시 테스트해볼 가치가 있습니다. 특히 “폐쇄형 API만으로는 부족하다”, “사내 코드와 데이터를 직접 통제하고 싶다”, “로컬 또는 자체 인프라 기반 AI 에이전트를 만들고 싶다”는 사람에게 Qwen3.6-35B-A3B는 매우 현실적인 선택지가 될 수 있습니다.
한 줄로 말하면, Qwen3.6-35B-A3B는 오픈웨이트 AI가 단순 챗봇을 넘어 실전형 개발 에이전트로 진화하고 있다는 강한 신호입니다.
Discussion (0)
Please log in to join the discussion.