Nature 보도: 인간 과학자, 최고 AI 에이전트를 아직 압도한다
AI 에이전트{{ai-agent}}가 코드를 작성하고, 논문을 요약하고, 실험을 설계하는 시대다. 하지만 Nature가 Stanford AI Index 2026을 기반으로 보도한 내용은 현실 점검이 필요하다는 메시지를 담고 있다. 최고 성능의 AI 에이전트도 복잡한 과학 작업에서는 박사급 전문가의 절반 수준에 그친다.
AI 에이전트가 복잡한 작업에서 약한 이유 중 하나는 오류 누적 문제다. 추론 과정의 초반에 잘못된 판단이 생기면, 그 실수가 이후 단계를 거치면서 눈덩이처럼 커진다. 전문가들은 “완전 자율 연구{{autonomous-research}} AI 과학자는 아직 먼 이야기”라고 평가하고 있다.
Google DeepMind의 CEO Demis Hassabis도 비슷한 시각을 보였다. 그는 AI가 새로운 가설을 생성하는 능력에 대해 “아직 이 시스템들은 그렇게 할 수 없다”며, 진정한 혁신과 창의성이 가능해지기까지 5~10년이 걸릴 것으로 전망했다.
다만, 이 결과를 AI의 실패로 읽으면 안 된다. AI 에이전트가 일상적이고 반복적인 과학 작업 — 문헌 검토, 데이터 전처리, 실험 프로토콜 초안 등 — 에서는 이미 상당한 생산성 향상을 가져오고 있다. Science 저널의 관련 보도에 따르면, AI 도구가 과학자 개인의 역량을 확대(supercharged)한 것은 사실이지만, 연구 주제의 다양성이 줄어드는 부작용도 발생하고 있다. 모든 연구자가 비슷한 AI 도구를 쓰면서 비슷한 방향으로 연구하게 되는 현상이다.
AI 에이전트에 대한 기대와 현실의 간극은 개발자와 연구자 모두에게 중요한 체크포인트다. 에이전트가 단독으로 과학을 혁신하기보다는, 인간 과학자와 협업하는 형태가 당분간 가장 효과적인 모델이 될 것으로 보인다.
출처 및 참고 자료
- Human scientists trounce the best AI agents on complex tasks — Nature, 2026-04-14
- Inside the AI Index: 12 Takeaways from the 2026 Report — Stanford HAI, 2026-04-14
함께 보면 좋은 글
- AI has supercharged scientists—but may have shrunk science — AI가 연구 다양성을 줄이는 부작용
- AI and the human mind: only one is a black box — Hassabis의 AI 창의성 전망