연구논문 기술심화 2026-05-01

'답은 알지만 질문은 이해 못 했다' — 인간 사고 모방 모델 Centaur, 외부 검증에서 흔들

‘답은 알지만 질문은 이해 못 했다’ — 인간 사고 모방 모델 Centaur, 외부 검증에서 흔들

이 글의 평가 결과는 외부 연구진의 후속 분석 보도에 기반한다. 정식 동료 평가 논문이 아직 일반 공개되지 않았으므로, 후속 보도와 논문 공개에 따라 세부 결론이 달라질 수 있다.

지난해 Nature에 발표된 ‘Centaur’는 인간 사고를 모방하는 모델로 큰 주목을 받았다. 160개 인지 과제, 60,000명 이상의 참가자, 1,000만건이 넘는 선택 데이터(Psych-101)를 학습한 모델이었다. 그런데 4월 30일 ScienceDaily와 Science(AAAS)가 동시에 정리한 외부 검증 결과는 다른 그림을 보여준다. Centaur가 “사고하는 것”이 아니라 “데이터셋을 외운 것”에 가깝다는 비판이다.

무엇이 문제인가 — 같은 문제, 다른 표현

비판의 핵심은 단순하다. 같은 인지 과제를 — 답은 같지만 — 표현만 약간 바꿔서 다시 물었을 때, Centaur가 새 지시문을 따르지 않고 원래 데이터셋의 ‘정답’을 고집했다는 것이다. ScienceDaily 보도는 이를 “모델이 질문의 의미를 해석한 게 아니라, 학습된 통계 패턴으로 답을 추측한다”고 표현했다. 이는 사실상 암기(memorization) 효과로 본다는 진단이다. 외부 검증진은 맹검 평가를 통해 표현 변형 robustness를 측정하는 방법을 택했다.

만약 모델이 인간처럼 추론한다면, 같은 정보가 다른 단어로 제시되더라도 응답이 일관되어야 한다. 그러나 Centaur는 표현이 바뀌면 새로운 정답을 찾지 못하고, 기존 패턴을 그대로 출력하는 경향을 보였다.

긍정적 관점 — ‘인지 모방’은 여전히 가치 있는 가설

원논문 저자 진영과 IBM 등 우호적 시각은 두 가지 반박을 내놓는다. 첫째, 단일 모델이 160개 과제에 걸쳐 인간 행동을 동시에 예측할 수 있다는 것 자체가 인지과학 연구 도구로서 충분한 가치가 있다는 입장이다(theoutpost.ai 정리). 둘째, “윤리적으로 허용되지 않는 실험”을 디지털 시뮬레이션으로 대체할 수 있다는 응용 가능성은 검증 한계와 별개로 평가받아야 한다는 주장도 함께 나온다.

또한 일부는 “외운 것 같다”는 비판이 외부 연구진의 평가 설정 문제일 수도 있다고 본다. Centaur가 어떤 표현 변형에 강하고 어떤 변형에 약한지에 대한 체계적인 ablation 연구가 후속으로 필요하다는 것이다.

부정적 관점·우려 — ‘인지 모델’을 표방한 시스템의 위험

비판 진영은 두 갈래로 정리된다. 첫째, Science 매체는 “모델이 학습 데이터의 통계 구조를 외운 것이 인지과정 모방으로 잘못 해석되면, 인지과학 연구 자체가 잘못된 결론으로 흐를 수 있다”고 경고한다. 인간 행동 데이터를 학습한 모델이 인간 행동을 잘 예측하는 것은 당연하며, 그 자체가 ‘인간처럼 생각한다’의 증거가 될 수 없다는 논리다.

둘째, 의료·교육·정책 분야에서 ‘인간 사고 시뮬레이션’ 모델이 의사결정 보조에 쓰일 가능성을 생각하면, 모델이 새로운 상황에 일반화하지 못한다는 점은 단순한 학술 논쟁을 넘는 위험이 된다. ScienceDaily는 “정답을 외운 모델은 처음 보는 상황에서 가장 위험한 답을 자신 있게 내놓을 수 있다”고 정리했다.

평가 방법 — 표현 변형 robustness가 새 표준이 될까

이번 논쟁이 던지는 더 큰 질문은 ‘인지 과제 벤치마크의 평가 방법’이다.

flowchart LR
  A[원본 인지 과제]
  B[학습 데이터셋 Psych-101]
  C[Centaur 학습]
  D[원본 표현으로 평가]
  E[변형 표현으로 평가]
  A --> B --> C
  C --> D
  C --> E
  D -.높은 정확도.-> F[정답 일치]
  E -.새 지시 무시.-> G[원본 패턴 고수]

평가가 학습 데이터의 표현과 비슷할수록 모델 성능이 높게 나오는 현상은 벤치마크 오염 문제와 비슷한 구조다. 외부 연구진의 결과가 재현되면, 향후 AI 인지 모델 평가에서 표현 변형(paraphrase) robustness 테스트가 표준 절차로 들어올 가능성이 있다.

전망 — 후속 논문과 인지과학 학회 반응

단기 체크포인트는 ① 외부 연구진의 검증 결과가 동료 평가 논문으로 정식 공개되는 시점, ② Nature 원저자 진영의 공식 반박 또는 후속 모델 발표, ③ NeurIPS·ICLR·CogSci 같은 학회에서 ‘AI 인지 모방의 평가 기준’에 대한 워크숍이 열리는지가 관전 포인트다. 한국 인지과학·AI 연구 커뮤니티에는 이번 논쟁이 모델 평가 방법론 강의와 워크숍의 좋은 사례로 빠르게 흡수될 가능성이 크다.


출처 및 참고 자료

함께 보면 좋은 글

이 글에 나오는 용어
해시태그