xAI Grok, 4월 23일 일시 응답 지연 — '수요 폭주형' 장애의 단면

xAI Grok, 4월 23일 일시 응답 지연 — ‘수요 폭주형’ 장애의 단면

xAI의 AI 챗봇 Grok이 4월 23일(목) 오전 시간대에 간헐적 응답 지연과 오류를 냈다. 웹, 모바일 앱, X(구 트위터) 통합 환경에서 “Sorry about that, something didn’t go as planned. Please try again” 같은 안내가 여러 사용자에게 표시됐다는 보도가 나왔다.

실제 상황

International Business Times Australia 보도에 따르면 장애 신호는 수요일 저녁부터 감지됐고, 목요일 오전까지 이어졌다. 반면 xAI의 공식 상태 페이지(status.x.ai)는 Grok Web, iOS, Android, API 모두 “서비스 정상”으로 표시했다. 이 괴리는 “전면 장애라기보다 일부 지역·일부 경로에서 발생한 국지적 지연”으로 해석된다.

사용자들이 시도한 임시 해결책은 브라우저 새로고침, 앱 재시작, 캐시 삭제, 통합 경로(grok.x.ai, X 앱 내, 모바일 앱) 간 전환 등이다.

왜 이런 장애가 나는가

최근 주요 AI 서비스의 장애는 장비 고장보다 “추론 수요 폭주”에서 비롯되는 경우가 많다. 모델을 호출하는 요청 수가 예측을 넘어서면 GPU/TPU 큐가 밀리고, 프런트엔드에서는 일부 사용자에게만 오류가 표시되는 식이다. 추론{{inference}} 자원 운영이 평시에는 넉넉해도, 특정 시간대(이슈 발생, 신기능 출시 등)에 순간 부하가 몰리면 쉽게 흔들린다.

긍정 관점

IBTimes AU는 “Grok이 겪은 문제는 경쟁사들이 겪은 전면 글로벌 블랙아웃과 달리 국지적·수요 기반에 가까웠다”고 평가했다. 즉 인프라 근본 결함이라기보다 트래픽 스파이크 대응 이슈에 가깝고, xAI는 공식 상태 페이지를 통해 실시간 상태를 투명하게 공개하고 있다는 점이 긍정 요소다.

부정 관점·우려

반면 이번 사례는 AI 서비스의 SLA(서비스 수준 계약) 약정이 아직 얕다는 점을 보여준다. OpenAI, Anthropic, Google, xAI 모두 API 서비스에는 SLA를 제공하지만, 일반 사용자용 챗봇은 명시적 가동률 보장이 약하다. 기업이 AI 챗봇을 업무 흐름에 깊게 붙일수록, 이런 국지적 장애조차 업무 중단으로 이어질 수 있다.

지켜볼 지점

단기로는 xAI가 이번 인시던트에 대해 별도의 포스트모템(사고 원인 분석 공개)을 낼지가 체크포인트다. 중기로는 AI 서비스 전반에서 “가동률 99.9%” 수준을 명시적으로 보장하는 티어가 일반 소비자용 제품에도 확산될지가 관전 포인트다. 이번 사례의 실제 영향 범위와 지속 시간은 추가 자료로 보완되기 전까지 정밀 추정이 어렵다.


출처 및 참고 자료

함께 보면 좋은 글

해시태그
xAIGrok서비스 장애AI 인프라