GPT-5.5 출시 기대와 성능 기대는 아직 다르다

출시 기대와 승리 기대

GPT-5.5는 아직 공개되지 않았다. 그런데 OpenAI는 이미 기대치를 올려놓았다.

4월 7일 Greg Brockman은 Spud를 a new base이자 a new pretrain이라고 부르며, maybe two years worth of research가 이 모델에서 결실을 맺는다고 말했다.¹ 그는 같은 인터뷰에서 Spud가 much harder problems를 풀고, instruction과 context를 더 잘 이해할 것이라고도 했다.¹ 4월 6일 OpenAI Forum에서 Sam Altman 역시 extremely capable models가 quite soon 올 것이라고 말했다.²

4월 14일 OpenAI 공식 공지도 upcoming model release라는 표현을 썼다.³

여기서 중요한 것은 Spud라는 내부 명칭 자체가 아니다. OpenAI가 다음 모델을 얼마나 큰 변화로 설명하느냐다. GPT-5.5 released on...? 시장의 판정 기준도 GPT-5.5 또는 GPT-5.4의 직접 후속 계열 공개다.⁴ 이름이 어떻게 붙더라도, 시장이 기다리는 것은 OpenAI의 다음 공개 주력 모델이다.

예측시장은 출시 시점에 대해서는 확신이 강하다. GPT-5.5 released on...? 시장에서 4월 23일 공개는 86%, 4월 중 미공개는 4%다.⁴ GPT-5.5는 먼 미래의 이름이 아니라, 당장 가격이 붙은 이벤트가 됐다.

하지만 성능 기대는 더 낮은 곳에 머문다. Next OpenAI Model: Arena Debut?에서 1480+는 77%지만 1500+는 29%, 1520+는 11%다.⁵ 나온다는 것과 곧바로 이긴다는 것은 시장에서 다른 문제다.

마켓 연결

그 이유는 공개 리더보드에 있다. 4월 19일 Arena Overall에서 claude-opus-4-7-thinking은 1504점, gemini-3.1-pro-preview는 1493점, gpt-5.4-high는 1482점이다.⁶ 1500+는 현재 1위 1504에 거의 닿는 구간이지만, 그것만으로 1위를 뜻하지는 않는다. 그런데 Polymarket은 차기 OpenAI 모델의 1500+ 데뷔 가능성을 29%로 본다.⁵ 출시 기대와 성능 기대 사이에는 분명한 간격이 있다.

코딩 쪽도 사정은 비슷하다. 4월 19일 Arena Coding에서 claude-opus-4-7-thinking은 1571점, gpt-5.4-high는 1534점이다.⁷ 실제 4월 말 코딩 1위 시장도 Anthropic 88%, OpenAI 12.0%다.⁸ 숫자만 봐도 격차는 아직 선명하다.

월말 판정 시장도 같은 방향이다. Which company has the best AI model end of April?에서 Anthropic은 70%, OpenAI는 27.6%다.⁹ Which company has the best Coding AI model end of April?에서도 Anthropic 88%, OpenAI 12.0%다.⁸ 특정 모델 하나만 겨냥한 시장은 아니지만, 4월 말까지 OpenAI가 공개 리더보드 1위를 되찾을 것이라는 기대는 아직 약하다.

큰 그림

이 가격표가 보여 주는 것은 OpenAI에 대한 불신이라기보다 경쟁 환경의 변화다. 새 모델 출시만으로 공개 우위 회복이 자동으로 따라오던 시기는 지나갔다. Anthropic과 Google이 이미 높은 점수대를 차지한 상태에서는, OpenAI의 다음 모델도 나온다는 사실과 이긴다는 사실을 따로 증명해야 한다.

그래서 GPT-5.5의 첫 관전 포인트는 출시 여부가 아니다. 시장은 그쪽에는 이미 높은 확률을 줬다. 더 중요한 것은 공개 직후 점수가 1480대에 머무는지, 1500선을 넘는지, 그리고 코딩 리더보드에서 Anthropic의 격차를 실제로 줄이는지다.⁵⁶⁷⁸ OpenAI가 강한 모델을 낼 가능성은 시장도 인정한다. 다만 아직 1위 탈환까지 한 번에 가격에 반영하지는 않았다.

Big Technology, OpenAI President Greg Brockman: Doubling Down on Text Models, The Superapp Plan, Codex’s Potential

2026년 4월 7일 Greg Brockman은 Spud를 a new base이자 a new pretrain으로 부르며, maybe two years worth of research가 이 모델에서 결실을 맺는다고 말했다. 그는 또 Spud가 더 어려운 문제를 풀고, 더 미묘하며, instruction·context 이해가 더 강해질 것이라고 설명했다. ↩ ↩²
OpenAI Forum, Event Replay: Sam Altman on Building the Future of AI

2026년 4월 6일 OpenAI Forum에서 Sam Altman은 AI 진보 속도가 계속 빨라지고 있으며 extremely capable models가 quite soon 올 것이라고 말했다. ↩
OpenAI, Trusted access for the next era of cyber defense

OpenAI는 2026년 4월 14일 Looking ahead to our upcoming model release and beyond라는 소제목 아래, 앞으로 몇 달 안에 더 강한 모델들을 준비 중이라고 밝혔다. ↩
Polymarket, GPT-5.5 released on...?

2026-04-22 UTC 기준 4월 23일 공개 86%, 4월 22일 공개 6.8%, 4월 중 미공개 4%다. 이 시장은 대중이 실제 접근 가능한 GPT-5.5 또는 GPT-5.4의 직접 후속 계열 공개를 기준으로 판정한다. ↩ ↩²
Polymarket, Next OpenAI Model: Arena Debut?

2026-04-22 UTC 기준 차기 OpenAI 모델의 Arena Overall 데뷔가 1480+일 확률은 77%, 1500+는 29%, 1520+는 11%다. 여러 변형이 함께 나타나면 최고 점수 변형이 판정 기준이 된다. ↩ ↩² ↩³
Arena, Text Arena Overall

2026년 4월 19일 공개 보드 기준 claude-opus-4-7-thinking 1504, gemini-3.1-pro-preview 1493, gpt-5.4-high 1482였다. ↩ ↩²
Arena, Text Arena Coding

2026년 4월 19일 공개 보드 기준 claude-opus-4-7-thinking 1571, gpt-5.4-high 1534였다. ↩ ↩²
Polymarket, Which company has the best Coding AI model end of April?

2026-04-22 UTC 기준 Anthropic 88%, OpenAI 12.0%, Moonshot 1.1%다. 이 시장은 4월 30일 정오 ET 시점 Arena Coding 1위 회사를 기준으로 판정된다. ↩ ↩² ↩³
Polymarket, Which company has the best AI model end of April?

2026-04-22 UTC 기준 Anthropic 70%, OpenAI 27.6%, DeepSeek 2.8%다. 이 시장은 4월 30일 정오 ET 시점 Arena Overall 1위 회사를 기준으로 판정된다. ↩