정책규제 중급 2026-05-03

NIST CAISI 평가: DeepSeek V4 Pro, 美 프런티어 대비 약 8개월 뒤처졌지만 가성비는 우위

NIST CAISI 평가: DeepSeek V4 Pro, 美 프런티어 대비 약 8개월 뒤처졌지만 가성비는 우위

미국 NIST 산하 AI 표준·혁신 센터 CAISI(Center for AI Standards and Innovation)가 5월 3일 DeepSeek V4 Pro 평가 결과를 공개했다. 결론은 두 줄이다 — 능력은 미국 프런티어 모델 대비 약 8개월 뒤처졌고, 비용 효율은 미국 비교 모델보다 더 나은 영역이 더 많다.

핵심 결과

평가는 16개 벤치마크, 35개 모델을 대상으로 진행됐고, 클라우드 H200·B200 GPU 환경에서 개발자 권장 설정으로 수행됐다. 측정 도메인은 사이버, 소프트웨어 엔지니어링, 자연과학, 추상 추론, 수학이다. 결과는 다음과 같이 요약된다.

항목결과
능력 격차 (vs 美 프런티어)약 8개월 뒤처짐
유사 능력 모델GPT-5 (약 8개월 전 출시)
비용 효율 vs GPT-5.4 mini7개 벤치마크 중 5개에서 우위
비용 격차 폭-53% ~ +41% (벤치마크별)
평가 대상 도메인사이버, 소프트웨어 엔지니어링, 자연과학, 추상 추론, 수학

자료: NIST CAISI 공식 발표(2026-05-03). 비교 모델인 GPT-5.4 mini는 미국 모델 중 가성비 비교 기준으로 선정.

CAISI는 DeepSeek V4 Pro가 “지금까지 평가한 중국 모델 중 가장 능력이 뛰어나다”고도 평가했다. 다만 이 표현은 “미국 모델과 동급”이라는 뜻이 아니라, 중국 모델 풀 안에서의 상대 평가라는 점을 본문이 명시한다.

왜 지금 이 평가가 의미 있는가

CAISI는 2024년 말 설립 이후 공공 부문 AI 도입 결정을 위한 기준 데이터를 만드는 조직으로 자리 잡고 있다. DeepSeek 시리즈는 2024년 말 V1 공개 이후 가격·오픈 웨이트 전략으로 글로벌 사용자 풀을 빠르게 늘렸고, 미국 정부·공공기관·국방 분야 도입 검토 의제로 반복 등장해 왔다. 이번 V4 Pro 평가는 같은 분석 프레임을 V4까지 갱신했다는 의미가 있다.

같은 주에 DeepSeek는 V4 가격을 대폭 인하했다(별도 포스트 참조). NIST가 비용 효율 우위를 공식 인정한 이번 보고서가 이 가격 인하 흐름과 맞물리면, 미국 정부·기업이 “능력은 뒤처지지만 비용 우위는 진짜”라는 데이터를 한 번에 받게 된 셈이다.

긍정적인 시각

평가 결과는 미·중 AI 경쟁의 현 위치를 비교적 객관적으로 잡아주는 데 의미가 있다. 사기업 PR이나 단편 벤치마크 보도가 아닌, 정부 산하 평가기관이 동일 환경(H200/B200, 동일 설정)에서 측정한 자료라는 점에서 비교 기준의 신뢰도가 높다. 비용 효율 분석을 함께 제시한 것도 실무적이다 — 어떤 워크로드에서 DeepSeek를 쓸지, 어떤 데서는 GPT-5.4 mini를 쓸지를 가르는 의사결정에 직접 쓰일 수 있다.

오픈 웨이트로 풀린 모델에 대한 정부 평가가 정례화되면, 도입 검토를 하는 기업·기관 입장에선 자체 벤치마크 비용을 일부 절감할 수 있다.

부정적인 시각·우려

격차 표현의 해석에는 주의가 필요하다. “8개월 뒤처졌다”는 표현은 동적인 모델 발전 속도를 단일 숫자로 환원한다. 영역별로(사이버 vs 자연과학 vs 추상 추론) 격차 패턴이 다를 수 있고, 일부 영역에서는 DeepSeek가 GPT-5와 동등하거나 앞설 가능성도 있다. 본문은 도메인별 세부를 일부 제시하지만, 보다 정밀한 의사결정을 위해선 도메인별 점수표를 모두 들여다봐야 한다.

또 하나의 우려는 정치적 맥락이다. 미국 정부 산하 평가기관이 중국 모델을 평가하는 작업은 “객관성과 정책적 메시지가 분리되기 어렵다”는 비판을 피하기 어렵다. CAISI 발표문 자체는 사실 위주로 정리돼 있지만, 발표 시점·헤드라인 선택에서 정책 메시지가 묻어날 수 있다는 시각이 존재한다.

세 번째로, 평가에 사용된 벤치마크가 모델 학습 단계에서 일부 노출됐을 가능성(이른바 벤치마크 오염)은 모든 LLM 평가의 공통 한계다. CAISI가 비공개 벤치마크를 일부 활용했다는 언급이 있지만, 어느 비중이 비공개였는지에 대한 정량 정보는 추가 공개가 필요하다.

앞으로 지켜볼 지점

단기로는 두 가지다. 첫째, NIST가 같은 평가 프레임을 다른 중국 모델(Qwen 시리즈, Kimi, GLM 등)에도 적용할지. 둘째, 미국 연방기관·국방 조달이 이 보고서를 인용해 DeepSeek 사용을 제한하거나 허용 조건을 명시하는 후속 행정 가이드를 내는지.

중장기로는 같은 평가 프레임이 표준화되어 다른 국가(영국 AISI, EU AI Office 등) 평가와 상호 참조될 수 있는지가 관건이다. 평가 결과가 단일 국가의 정책 도구를 넘어 국제 비교 가능한 데이터로 자리 잡으면, 모델 개발사들의 투명성 인센티브에도 변화가 생길 수 있다.


출처 및 참고 자료

함께 보면 좋은 글

이 글에 나오는 용어
해시태그