Sakana AI의 AI Scientist-v2, 완전 자동 생성 논문이 ICLR 워크숍 심사를 통과했다
일본 도쿄 기반 Sakana AI가 선보인 AI Scientist-v2 시스템이, 사람 손을 거의 거치지 않고 작성한 머신러닝 논문으로 ICLR 워크숍 피어리뷰를 통과했다. 평균 점수 6.33점으로 채택 기준선을 넘겼다. 가설 제안부터 실험 수행, 통계 분석, 논문 작성, 심지어 자동 피어리뷰까지 에이전트 트리 탐색으로 직접 해낸 결과다.
이전 AI Scientist-v1이 제안서 수준에 머물렀던 것과 달리 v2는 에이전틱 워크플로{{agentic-workflow}}를 더 정교하게 짰다. 여러 가설 가지를 병렬로 탐색하고, 실패하는 경로는 자체 피드백으로 잘라내는 구조다. 이 흐름 덕에 “사람이 보조하는 자동화”가 아니라 “사람이 최종 검수만 하는 자동화”에 가깝다고 Sakana AI는 설명한다.
낙관적으로 보는 측은, 바쁜 연구자가 반복 실험·초안 작성을 AI에 넘기고 창의적 설계에 집중할 수 있게 된다는 점을 강조한다. OpenReview의 워크숍 리뷰어 일부도 “가설의 구체성과 재현 가능성이 충분했다”는 평을 남겼다.
반면 Nature는 같은 시기 게재된 논문에서, 복잡한 실제 연구 과제에서는 인간 과학자가 최고 수준의 에이전트형 AI{{agentic-ai}}를 여전히 유의미하게 앞선다고 보고했다. 창의적 가설 생성과 문맥적 해석에서 특히 격차가 크다는 설명이다. 자동 피어리뷰가 진짜 동료 심사를 얼마나 대체할 수 있는지에 대한 회의도 남아 있다.
한국 학계 관점에서 이 소식은 두 가지 질문을 던진다. 첫째, 논문 저자 목록에 AI 시스템을 어떻게 표기할 것인가. 둘째, 연구 부정·자동 생성물의 경계 기준을 누가 정할 것인가. ICLR 워크숍이 이 논문을 수용한 방식이 선례가 되면서, KAIST·서울대 계열 학회도 가이드라인 논의를 시작할 공산이 커 보인다.
출처 및 참고 자료
- AI Scientist-v2: First Fully AI-Generated Peer-Reviewed Paper — Sakana AI, 2026-04
- AI Scientist-v2 시스템 설명 논문 — arXiv, 2026-04
함께 보면 좋은 글
- Humans still outperform AI on complex tasks — Nature, 자동 연구의 한계 관점