Devlery
Blog/AI

35시간 에이전트, Qwen3.7이 칩까지 끌어안은 이유

Alibaba Qwen3.7-Max는 모델 발표를 넘어 자체 칩과 128가속기 랙까지 묶은 에이전트 풀스택 전략입니다.

35시간 에이전트, Qwen3.7이 칩까지 끌어안은 이유
AI 요약
  • 무슨 일: Alibaba가 Qwen3.7-Max와 자체 AI 칩 Zhenwu M890, 128가속기 슈퍼노드를 함께 공개했습니다.
    • 공식 발표는 35시간 장기 에이전트 작업과 1,000회 이상 tool call을 핵심 데모로 제시합니다.
  • 핵심 의미: 모델 경쟁이 agent runtime, cloud rack, interconnect, low-precision inference까지 묶는 풀스택 싸움으로 이동합니다.
  • 개발자 관점: 좋은 LLM을 고르는 문제만이 아니라, 긴 작업을 돌릴 실행 계층과 비용·관측·공급망을 함께 봐야 합니다.
  • 주의점: Qwen3.7-Max는 곧 Model Studio에서 제공될 예정이며, 35시간·1,000 tool call 수치는 Alibaba 발표 기준입니다.

Alibaba가 2026년 5월 20일 Alibaba Cloud Summit에서 Qwen3.7-Max를 공개했습니다. 발표만 보면 새 플래그십 모델 뉴스입니다. 하지만 이번 건에서 더 중요한 신호는 모델 이름 뒤에 붙은 인프라입니다. Alibaba는 Qwen3.7-Max와 함께 Panjiu AL128 Supernode Server, T-Head의 Zhenwu M890 AI 프로세서, ICN Switch 1.0, Model Studio/Bailian의 에이전트용 최적화를 한꺼번에 꺼냈습니다.

공식 발표의 문장은 꽤 노골적입니다. Qwen3.7-Max는 agentic coding, complex reasoning, long-horizon task execution을 위해 설계된 모델이고, 최대 35시간 동안 계속되는 장기 에이전트 작업과 1,000회 이상 tool call을 성능 저하 없이 수행할 수 있다고 설명됩니다. 이 숫자는 단순히 "더 똑똑한 챗봇"이라는 메시지가 아닙니다. Alibaba는 에이전트가 오래 실행될 때 필요한 모델, 도구 호출, 메모리, interconnect, 저정밀 추론, 클라우드 랙을 하나의 제품 묶음으로 팔겠다고 말하고 있습니다.

최근 AI 모델 발표는 대부분 비슷한 형식을 따릅니다. 더 높은 benchmark, 더 긴 context, 더 싼 token, 더 빠른 coding. Qwen3.7-Max도 그 흐름 안에 있습니다. 다만 이번 발표는 "모델이 좋아졌습니다"에서 멈추지 않습니다. 128개 AI accelerator를 한 랙 안에 묶는 Panjiu AL128, native FP4를 지원하는 Zhenwu M890, 25.6Tbps aggregate bandwidth를 내세운 ICN Switch 1.0이 같이 등장합니다. 이 조합은 에이전트 시대의 병목이 모델 파라미터 안에만 있지 않다는 판단을 드러냅니다.

Qwen Chat 공식 앱 이미지

모델 발표보다 긴 작업 실행이 핵심입니다

Qwen3.7-Max의 후크는 35시간입니다. Alibaba 발표문은 이 모델이 코드 생성과 디버깅, office workflow automation, 수백 또는 수천 단계가 필요한 복잡한 작업을 다룰 수 있다고 설명합니다. 특히 장기 실행 에이전트 작업에서 35시간 연속 실행과 1,000회 이상 tool call을 강조합니다. 코딩 에이전트와 업무 자동화 에이전트를 운영해 본 팀이라면 이 숫자가 왜 전면에 나왔는지 바로 이해할 수 있습니다.

에이전트는 한 번 답하고 끝나는 모델 호출과 다릅니다. 파일을 읽고, 계획을 세우고, 셸 명령을 실행하고, 테스트를 돌리고, 실패 원인을 다시 읽고, 브라우저나 검색 도구를 호출하고, 결과를 재조합합니다. 이 루프가 길어질수록 모델의 순수 reasoning만큼 중요한 것은 상태 유지, tool call 안정성, 비용 예측, 실패 복구, 로그와 trace입니다. 35시간이라는 숫자는 모델 지능보다도 "작업자가 끊기지 않고 버티는가"라는 운영 질문을 겨냥합니다.

이 지점에서 Alibaba의 발표는 최근 Google Gemini API Managed Agents, NVIDIA Vera CPU 배송, AWS Security Agent 같은 흐름과 이어집니다. 모델 회사와 클라우드 회사는 이제 모델 API만 파는 것으로 충분하지 않다고 보고 있습니다. 에이전트가 실제 업무를 끝내려면 실행 환경, 코드 샌드박스, 네트워크, 권한, 컴퓨트 스케줄링, 관측성이 필요합니다. Qwen3.7-Max 발표는 그 실행 계층을 Alibaba Cloud와 자체 칩 쪽으로 당겨오려는 시도입니다.

Qwen3.6 이후의 변화는 더 빠른 폐쇄형 플래그십입니다

devlery는 앞서 Qwen3.6-Plus가 agentic coding을 전면에 놓고, Max/Plus 계열이 점점 API 중심의 폐쇄형 플래그십으로 이동하는 흐름을 다뤘습니다. Qwen3.7-Max는 그 경향을 더 밀어붙입니다. SCMP 보도에 따르면 Qwen3.7-Max-Preview와 Qwen3.7-Plus-Preview는 공식 발표 전 LMArena와 Qwen Chat에 먼저 보였고, Qwen3.7-Max-Preview는 텍스트 성능에서 글로벌 13위, Qwen3.7-Plus-Preview는 vision에서 16위로 거론됐습니다. 동시에 미국 상위 모델인 Claude, Gemini, ChatGPT 계열에는 아직 뒤처진다는 평가도 함께 붙었습니다.

이 구도는 중요합니다. Alibaba의 Qwen은 오픈 모델 생태계에서 강한 존재감을 쌓아 왔지만, 가장 앞단의 Max/Plus 모델은 점점 서비스형 모델과 preview, API 제공으로 이동하고 있습니다. 개발자 커뮤니티가 기대하는 것은 보통 "작고 강한 open-weight 모델이 언제 내려오느냐"입니다. 반면 Alibaba Cloud가 발표에서 강조하는 것은 "이 모델을 우리 클라우드와 칩 위에서 장기 에이전트의 backbone으로 쓰라"는 방향입니다.

둘은 충돌하지 않을 수 있습니다. Qwen은 여전히 여러 open-weight 모델로 개발자 생태계를 유지할 수 있고, 최상위 모델은 cloud-hosted frontier product로 둘 수 있습니다. 하지만 관전 포인트는 분명합니다. Qwen3.7-Max가 실제 개발자에게 의미 있으려면 단지 benchmark가 높아지는 것만으로는 부족합니다. Model Studio 접근성, 가격, tool call 품질, context와 state 처리, 코딩 에이전트 프레임워크와의 실제 호환성이 같이 검증돼야 합니다.

자체 칩은 성능 자랑보다 공급망 메시지입니다

이번 발표에서 모델만큼 크게 다뤄진 이름은 Zhenwu M890입니다. Alibaba의 반도체 설계 자회사 T-Head가 공개한 최신 AI training/inference processor입니다. 공식 발표 기준 M890은 이전 세대 Zhenwu 810E 대비 3배 성능, 144GB 메모리, 800GB/s inter-chip bandwidth를 제시합니다. 데이터 precision은 FP32부터 FP4까지 native support한다고 설명됩니다.

이 숫자는 두 가지 맥락에서 읽어야 합니다. 첫째, 에이전트 inference는 비용 문제입니다. 긴 작업은 반복 호출과 도구 실행을 동반합니다. 모델이 수백 번의 intermediate step을 거치면, 한 번의 prompt 가격표보다 누적 inference cost가 중요해집니다. FP4 같은 저정밀 지원은 빠른 추론과 비용 절감을 위한 방향입니다. 물론 실제 품질과 비용은 워크로드별 검증이 필요하지만, 회사가 어디를 최적화하려는지는 명확합니다.

둘째, 중국 AI 인프라의 공급망 문제입니다. 고성능 GPU 수급과 수출 통제는 중국 클라우드 사업자에게 구조적 제약입니다. Alibaba가 모델 발표와 같은 무대에서 자체 AI 칩, interconnect, 랙 서버를 함께 보여준 것은 "우리는 모델만 만드는 회사가 아니라 에이전트 컴퓨트 스택을 직접 쌓는 회사"라는 신호입니다. 이는 NVIDIA나 Google TPU처럼 vertical integration을 강화하는 세계적 흐름과도 맞닿아 있습니다.

35시간
Qwen3.7-Max 장기 에이전트 작업 주장
1,000+
성능 저하 없는 tool call 주장
128
Panjiu AL128 단일 랙 accelerator 수

Panjiu AL128은 에이전트 동시성의 문제를 겨냥합니다

Panjiu AL128 Supernode Server는 이번 발표의 인프라 쪽 중심입니다. 공식 발표는 Zhenwu M890과 ICN Switch 1.0을 사용해 128개 AI accelerator를 단일 랙 안에 촘촘히 통합하고, PB/s scale의 single-rack bandwidth를 제공한다고 설명합니다. Alibaba Cloud는 이 구성이 scalable agent inference와 large-scale model training을 겨냥한다고 말합니다.

에이전트 워크로드에서 "동시성"은 단순한 요청 수가 아닙니다. 한 사용자가 긴 작업 하나를 맡겨도 내부적으로는 여러 단계의 모델 호출, tool call, 파일 접근, 코드 실행, 검색, 검증이 발생합니다. 여러 사용자가 동시에 이런 작업을 실행하면 클러스터는 짧은 inference 요청을 많이 처리하는 서버와 다른 패턴을 보입니다. 긴 상태를 품은 작업이 오래 남아 있고, 도구 호출 사이에 idle과 burst가 섞이며, 모델 호출은 작은 재시도와 평가 루프로 이어집니다.

Alibaba가 AL128을 Qwen3.7-Max와 한 묶음으로 발표한 이유가 여기에 있습니다. 모델이 장기 실행을 잘한다고 주장하려면 그 모델이 올라갈 클라우드 인프라도 장기 실행을 견뎌야 합니다. 랙 안의 accelerator 수, inter-chip bandwidth, low-latency interconnect, safety governance, Agentic RL 같은 서비스 최적화는 모두 "에이전트가 많아졌을 때 플랫폼이 버티는가"라는 질문에 대한 답입니다.

Agentic RL과 안전 경계는 아직 검증 포인트입니다

발표문에는 Bailian의 Agentic RL도 등장합니다. Alibaba는 agent execution feedback으로 모델 성능을 지속적으로 개선하고, 내장 안전 거버넌스로 자율 동작 에이전트가 정의된 경계 안에 머물도록 한다고 설명합니다. 문장만 보면 에이전트 플랫폼이 갖춰야 할 중요한 요소를 정확히 짚고 있습니다. 긴 작업은 실패 사례가 많고, 그 실패를 feedback으로 모아 모델과 정책을 개선하는 루프가 필요합니다.

다만 여기서부터는 독립 검증이 필요합니다. Agentic RL이 어떤 데이터와 보상 신호를 쓰는지, 사용자의 tool trace가 학습이나 개선에 어떻게 반영되는지, 고객별 데이터 경계가 어떻게 분리되는지, 안전 거버넌스가 prompt injection과 tool misuse를 어느 수준까지 막는지는 발표문만으로 알 수 없습니다. 장기 실행 에이전트는 편리한 만큼 권한과 데이터 이동의 범위가 커집니다. 기업 고객에게는 모델 성능보다 이 경계가 더 중요할 수 있습니다.

이 문제는 Alibaba만의 숙제가 아닙니다. Google Managed Agents도 네트워크 allowlist, credential injection, interaction retention을 명시적으로 다뤄야 했습니다. OpenAI Codex나 Claude Code 같은 코딩 에이전트도 샌드박스, 권한, git 변경 범위, 테스트 실행 비용을 계속 다룹니다. 에이전트 플랫폼 경쟁은 점점 "누가 더 똑똑한가"보다 "누가 더 안전하게 오래 일하게 할 수 있는가"로 바뀌고 있습니다.

에이전트 프레임워크 최적화는 생태계 전쟁입니다

흥미로운 대목은 Qwen3.7-Max가 OpenClaw, Hermes Agent, Claude Code, Qwen Paw, Qoder 같은 leading agent frameworks에 최적화됐다는 문장입니다. Claude Code가 경쟁사 Anthropic의 제품이라는 점을 고려하면 더 눈에 띕니다. 이는 모델 제공자가 특정 에이전트 런타임과 프레임워크의 tool use pattern을 의식해야 하는 단계로 들어왔다는 뜻입니다.

코딩 에이전트는 일반 챗봇과 다른 프롬프트·출력 패턴을 가집니다. diff를 만들고, 파일을 편집하고, 테스트 로그를 읽고, 셸 명령 결과를 요약하고, 실패를 다시 계획해야 합니다. 모델은 자연어 답변만 잘해서는 부족합니다. 도구 호출 순서, partial failure 처리, 긴 작업에서의 목표 유지, 권한 범위 준수, 작은 변경을 끝까지 밀고 가는 성향이 중요합니다.

Alibaba가 여러 프레임워크 최적화를 말하는 것은 이 시장에서 모델이 runtime-neutral commodity가 되기 어렵다는 신호입니다. 같은 모델이라도 어떤 harness에 연결되는지에 따라 체감 품질이 달라집니다. 앞으로는 모델 benchmark와 함께 "어떤 agent harness에서 얼마나 잘 버티는가"가 구매 기준이 될 가능성이 큽니다.

계층Alibaba 발표실무 질문
모델Qwen3.7-Max, agentic coding, long-horizon execution긴 작업에서 목표와 문맥을 얼마나 안정적으로 유지하는가
서비스Model Studio/Bailian, Agentic RL, safety governancetrace, 권한, 데이터 경계, 실패 복구를 얼마나 투명하게 제공하는가
Panjiu AL128, 128 accelerator, PB/s scale bandwidth동시 에이전트 요청과 장기 작업 tail latency를 얼마나 낮추는가
Zhenwu M890, 144GB, 800GB/s, FP4 지원실제 워크로드에서 비용과 품질의 균형을 어떻게 맞추는가

커뮤니티 반응은 기대와 불신 사이에 있습니다

Qwen3.7은 공식 발표 전부터 커뮤니티의 관심을 받았습니다. Reddit의 Qwen 관련 스레드에는 Qwen3.7-Max Preview의 수학 성능을 높게 평가하는 반응이 있었고, LocalLLaMA 쪽에서는 Max 모델이 폐쇄형으로 남을지, 27B나 35B 같은 실사용 가능한 open-weight 파생 모델이 나올지에 대한 기대가 이어졌습니다. LMArena 순위가 올라왔다는 보도도 관심을 키웠습니다.

반대로 제품 품질에 대한 회의도 있습니다. 한 사용자는 Qwen3.7 Plus Preview가 현재 연도를 2026년으로 받아들이지 못한다고 보고했습니다. 이것이 모델 전체 품질을 대표하는 사례라고 보기는 어렵습니다. 하지만 preview 모델의 leaderboard 인상과 실제 채팅 사용 경험 사이에 간극이 있을 수 있다는 점은 보여줍니다. 장기 실행 에이전트에서는 이런 작은 불일치가 더 큰 문제로 커질 수 있습니다. 날짜, 파일 상태, 실행 결과, 권한 범위를 잘못 이해하면 긴 작업 전체가 잘못된 방향으로 흐를 수 있기 때문입니다.

또 다른 긴장은 open-source 기대입니다. Qwen 브랜드는 개발자에게 open-weight 모델과 강하게 연결돼 있습니다. 그런데 Max/Plus preview가 상위 성능을 대표하고, 실제 접근은 Qwen Chat이나 Model Studio 쪽으로 묶이면 커뮤니티는 "언제 내려오나"를 묻게 됩니다. Alibaba 입장에서는 최상위 모델을 클라우드 서비스로 monetize하고, 작은 모델로 생태계를 넓히는 전략이 합리적일 수 있습니다. 개발자 입장에서는 로컬 실행 가능성과 API 의존성 사이의 선택지가 더 복잡해집니다.

중국 AI의 풀스택화가 개발자에게 주는 의미

이 발표는 중국 AI 경쟁을 "미국 모델을 따라잡는가"라는 프레임만으로 보면 놓치는 부분이 많습니다. Alibaba는 Qwen3.7-Max가 GPT, Claude, Gemini 같은 frontier model과 경쟁 가능하다고 말하지만, 동시에 자체 칩과 클라우드 서버를 전면에 배치합니다. 이는 중국 AI 회사가 모델 성능, 클라우드 유통, 하드웨어 자립을 하나의 전략으로 엮고 있다는 뜻입니다.

개발자에게 직접적인 영향은 선택지의 변화입니다. 글로벌 서비스를 만드는 팀은 OpenAI, Anthropic, Google, xAI, Mistral, DeepSeek, Qwen 계열 모델을 비교합니다. 이전에는 주로 품질, 가격, latency, context, API 안정성이 비교 기준이었습니다. 이제는 더 많은 항목이 들어옵니다. agent runtime을 제공하는가. tool call trace를 볼 수 있는가. 장기 실행을 중단·재개할 수 있는가. 데이터가 어디에 저장되는가. 어떤 칩과 region에서 돌며, 공급망 리스크는 어떤가.

특히 아시아 시장이나 중국 내 기업 고객에게 Alibaba Cloud의 풀스택 전략은 실질적인 의미가 있습니다. 모델, 클라우드, 칩, 기업 영업 채널이 같은 회사 안에 있으면 도입 경로는 단순해질 수 있습니다. 반대로 글로벌 개발자는 지역별 데이터 규제, API availability, 모델 정책, 영어·한국어 품질, ecosystem tooling을 더 꼼꼼히 봐야 합니다.

숫자는 강하지만 벤치마크가 전부는 아닙니다

Qwen3.7-Max 발표에는 숫자가 많습니다. 35시간, 1,000 tool call, 128 accelerator, 144GB memory, 800GB/s inter-chip bandwidth, 25.6Tbps switch bandwidth, 56만 개 이상 Zhenwu 출하량, 400개 이상 외부 고객. 좋은 뉴스 후크입니다. 하지만 이 숫자들은 대부분 Alibaba 발표 기준입니다. 독립 벤치마크와 실제 고객 워크로드 결과가 나와야 의미가 더 선명해집니다.

특히 에이전트 성능은 측정하기 어렵습니다. 코딩 benchmark에서 높은 점수를 받는 모델이 실제 대규모 저장소에서 항상 좋은 PR을 만드는 것은 아닙니다. 장기 실행을 35시간 버틴다는 것도 작업 종류, tool set, retry policy, checkpointing, memory compaction, human intervention 기준에 따라 의미가 달라집니다. "1,000 tool call without performance degradation"도 어떤 성능 지표를 기준으로 했는지 확인이 필요합니다.

그렇다고 숫자를 무시할 필요는 없습니다. 오히려 이 숫자들은 앞으로 모델 회사들이 어떤 방향으로 성능을 주장할지 보여줍니다. 단일 답변 품질이나 MMLU류 지표를 넘어, tool call endurance, long-horizon task success, infrastructure efficiency, rack-level bandwidth 같은 운영 지표가 더 자주 등장할 것입니다. 에이전트가 제품의 중심이 될수록 benchmark도 제품 운영에 가까운 형태로 이동합니다.

지금 봐야 할 체크포인트

첫째, Qwen3.7-Max의 실제 제공 방식입니다. 공식 발표는 곧 Alibaba Model Studio를 통해 글로벌 개발자가 접근할 수 있다고 설명합니다. 가격, region, rate limit, context limit, tool calling API, function schema, streaming, logging, safety policy가 실제 도입 가능성을 결정합니다.

둘째, Qwen3.7 계열의 open-weight 로드맵입니다. Max가 폐쇄형 frontier 모델로 남더라도, 작은 Qwen3.7 모델이 얼마나 빨리 공개되는지에 따라 개발자 생태계의 반응은 달라집니다. Qwen의 강점은 로컬과 클라우드 양쪽에 걸친 넓은 생태계였기 때문입니다.

셋째, Panjiu AL128과 Zhenwu M890의 독립 검증입니다. 144GB memory, 800GB/s inter-chip bandwidth, FP4 지원은 흥미롭지만, 실제 inference throughput, power efficiency, software stack, compiler maturity, cluster reliability가 따라와야 합니다. 자체 칩은 발표보다 운영이 더 어렵습니다.

넷째, Agentic RL과 safety governance의 투명성입니다. 장기 실행 에이전트는 고객 코드와 문서, 내부 API, 권한 있는 tool을 다룰 가능성이 큽니다. 모델 성능만큼 중요한 것은 어떤 데이터가 저장되고, 어떤 feedback이 학습에 쓰이며, 어떤 경계에서 에이전트가 멈추는지입니다.

결론: Qwen3.7의 진짜 뉴스는 모델 밖에 있습니다

Qwen3.7-Max는 당연히 모델 뉴스입니다. Alibaba의 최신 플래그십이고, 코딩과 reasoning, 장기 실행 에이전트를 정면으로 겨냥합니다. 하지만 이번 발표의 진짜 의미는 모델 밖에 있습니다. Alibaba는 Qwen3.7-Max를 단독 상품이 아니라 Model Studio, Agentic RL, Panjiu AL128, Zhenwu M890, ICN Switch 1.0으로 이어지는 실행 스택 위에 올렸습니다.

이는 AI 에이전트 시장의 방향을 잘 보여줍니다. 앞으로 팀이 비교해야 할 것은 "어떤 모델이 가장 좋은가"만이 아닙니다. 어떤 플랫폼이 긴 작업을 끝까지 추적하고, 어떤 인프라가 도구 호출 수천 번을 견디며, 어떤 칩이 inference 비용을 낮추고, 어떤 클라우드가 데이터와 권한 경계를 설명할 수 있는지가 같이 중요해집니다.

Alibaba는 이 질문에 풀스택으로 답하려 합니다. 자체 모델, 자체 클라우드, 자체 칩, 자체 interconnect를 묶어 에이전트 시대의 운영 비용과 공급망을 장악하려는 전략입니다. 성공 여부는 아직 발표문으로 판단할 수 없습니다. 그러나 Qwen3.7-Max가 남긴 메시지는 분명합니다. 에이전트 경쟁은 더 이상 모델 카드 안에서 끝나지 않습니다. 35시간 동안 일하는 AI를 만들겠다면, 그 AI가 서 있을 랙과 칩까지 경쟁의 일부가 됩니다.