Claude Opus 4.5 시스템 카드는 “새 모델이 몇 점을 받았나”를 보는 표가 아니다. 더 중요한 질문은 모델이 점점 더 agentic task와 장기 작업에 가까워질 때, 어떤 평가와 안전장치가 함께 커져야 하는가다.
Anthropic은 이 문서에서 Claude Opus 4.5가 소프트웨어 엔지니어링, 도구 사용, 컴퓨터 사용, reasoning, 수학, 비전 쪽에서 강해졌다고 설명한다. 동시에 이 모델을 AI Safety Level 3, 즉 ASL-3 보호 기준 아래 배포한다고 밝힌다. 독자는 이 두 문장을 따로 읽으면 안 된다. 성능이 올라갈수록 평가의 불확실성과 frontier model release gates 문제가 같이 커진다는 것이 이 시스템 카드의 핵심 신호다.
왜 지금 읽을 만한가
frontier model 발표는 보통 SWE-bench, OSWorld, GPQA 같은 숫자로 소비된다. 하지만 실제 제품과 산업에서 더 중요한 것은 숫자 하나가 아니라 “그 숫자가 어떤 조건에서 나왔는지”와 “그 능력이 어떤 위험 영역으로 이어지는지”다.
Claude Opus 4.5 시스템 카드는 그 점을 꽤 직접적으로 보여준다. 문서에는 벤치마크 성능, extended thinking, effort parameter, agentic search, prompt injection, malicious computer use, alignment audit, CBRN 평가, AI R&D autonomy threshold가 함께 나온다. 한 모델을 이해하려면 모델 카드가 아니라 평가 체계 전체를 봐야 한다는 뜻이다.
확인된 것
Anthropic은 Claude Opus 4.5를 hybrid reasoning model로 설명한다. 기본 모드에서는 빠르게 답하고, extended thinking 모드에서는 더 오래 숙고한다. 여기에 effort parameter가 추가되어 사용자가 reasoning에 쓰는 토큰과 비용·정확도 사이를 조정할 수 있다고 설명한다. 이 지점은 test-time compute가 이제 제품 설정이자 비용 설정이 되고 있음을 보여준다.
성능 표에서는 Claude Opus 4.5가 SWE-bench Verified 80.9%, Terminal-Bench 2.0 59.3%, OSWorld 66.3%, ARC-AGI-2 Verified 37.6%, GPQA Diamond 87.0% 같은 결과를 제시한다. 다만 시스템 카드는 이런 수치가 평균, trial 수, thinking budget, context window, sampling setting 같은 평가 조건에 묶여 있음을 함께 밝힌다.
문서가 특히 흥미로운 부분은 평가 오염 문제다. Anthropic은 benchmark가 training data에 들어가면 모델이 실제 능력보다 높은 점수를 받을 수 있다고 보고, substring removal, fuzzy decontamination, canary string filtering 같은 절차를 설명한다. 그래도 일부 AIME 문제와 해설이 training corpus에 남아 있었고, 모델이 reasoning trace는 틀리게 쓰면서 정답만 갑자기 맞히는 사례를 제시한다.
성능보다 더 중요한 신호
첫 번째 신호는 평가가 점점 제품 설정과 얽힌다는 점이다. effort parameter, context management, memory tool, subagents 같은 설정은 단순한 실험 옵션이 아니다. 실제 사용자는 더 높은 정확도, 낮은 비용, 긴 컨텍스트, 빠른 응답 사이에서 선택해야 한다. 이는 cost per token과 agent observability 문제로 이어진다.
두 번째 신호는 짧은 작업과 긴 작업의 차이가 커진다는 점이다. Anthropic은 Claude Opus 4.5가 여러 short-horizon benchmark에서는 매우 강해졌지만, entry-level remote researcher의 일을 완전히 자동화하는 AI R&D-4 threshold는 넘지 않았다고 판단한다. 이유는 단순 작업 능력과 여러 주에 걸친 문제 해결, 협업, 상황 판단, 조직적 커뮤니케이션이 다르기 때문이다.
세 번째 신호는 agentic safety가 모델 안전의 중심으로 올라온다는 점이다. 시스템 카드는 autonomous tool use 상황에서 malicious code, harmful computer use, prompt injection 방어를 평가한다. 이것은 agent containment와 AI system auditability가 모델 출시와 별개의 보조 문제가 아니라, 모델을 실제 업무에 쓰기 위한 기본 조건임을 보여준다.
아직 모르는 것
이 시스템 카드는 Anthropic이 작성한 자기 평가 문서다. 따라서 독자는 성능 수치와 안전 판단을 “검증된 최종 결론”이 아니라, 공개된 평가 근거와 회사의 판단으로 읽어야 한다.
특히 다음 질문이 남아 있다.
- effort parameter를 낮추거나 높였을 때 실제 고객 업무에서 비용·품질·지연 시간이 어떻게 바뀌는가.
- SWE-bench나 Terminal-Bench 같은 benchmark가 실제 소프트웨어 조직의 장기 업무 품질을 얼마나 잘 대표하는가.
- prompt injection과 악성 도구 사용 방어가 실제 product surface에서 얼마나 잘 작동하는가.
- AI R&D-4처럼 장기 autonomy를 평가하는 기준이 앞으로 충분히 정교해질 수 있는가.
- 시스템 카드의 내부 평가와 외부 독립 평가가 어디서 일치하고 어디서 갈라지는가.
Wansook.World에서 볼 포인트
Claude Opus 4.5 시스템 카드는 모델 성능 경쟁을 단순한 leaderboard로 보지 않게 해 준다. 이제 중요한 축은 세 가지다.
- 성능: 모델이 코드, 브라우저, 컴퓨터 사용, reasoning task를 얼마나 잘 수행하는가.
- 운영: effort, memory, context management, subagents 같은 설정을 어떻게 조합해야 하는가.
- 안전: autonomous tool use, prompt injection, misuse, alignment risk를 어떤 기준으로 측정하고 제한하는가.
이 세 축이 함께 움직일 때 Anthropic 같은 모델 회사는 단순히 모델을 파는 회사가 아니라, 평가·안전·운영 기준을 함께 제시하는 인프라 회사에 가까워진다.
헷갈리지 말아야 할 점
- 높은 benchmark 점수는 실제 장기 업무 자동화와 같지 않다.
- extended thinking이나 높은 effort가 항상 경제적으로 옳다는 뜻도 아니다. 더 많은 reasoning은 더 많은 비용과 지연 시간을 만들 수 있다.
- ASL-3 배포는 “위험이 없다”는 뜻이 아니라, 회사가 해당 모델을 특정 보호 기준 아래 출시한다는 뜻이다.
- 시스템 카드는 중요한 1차 자료이지만, 독립 benchmark, 사용자 사례, 보안 incident data와 함께 읽어야 한다.
관련 문서
- Anthropic
- Model evaluation contamination
- Frontier model release gates
- Test-time compute
- Agent containment
- Agent observability
- AI system auditability
- Cost per token