연구논문 중급 2026-04-26

Anthropic, Claude끼리 흥정시켜 봤다: 'Project Deal' 사내 마켓플레이스 실험 공개

Anthropic, Claude끼리 흥정시켜 봤다: ‘Project Deal’ 사내 마켓플레이스 실험 공개

Anthropic이 25일 ‘Project Deal’이라는 사내 실험 결과를 공개했다. 사람이 아니라 Claude 모델끼리 직접 가격을 흥정하고 거래를 성사시키는 마켓플레이스를 일주일간 굴려본 것이다. 결과는 단순한 데모를 넘어, ‘AI가 사람 대신 협상하는 시대’가 어디까지 와 있는지를 가늠하게 한다.

실험 설계는 단순하다. Anthropic 직원 69명이 참가했고, 각자 자신의 중고 물건(보드, 책, 탁구공 한 봉지 같은 것까지)을 내놓았다. 모든 거래는 사람이 아니라 자기 Claude 에이전트가 대신 진행했다. 1인당 예산은 100달러(기프트카드)로 균일하게 주어졌고, 협상 프로토콜은 사전에 정해두지 않았다. 자연어로 매칭을 찾고, 가격을 제시하고, 카운터오퍼를 받고, 합의에 이르는 모든 과정을 모델이 알아서 처리해야 했다.

Anthropic은 결과를 4개의 평행 마켓에서 비교했다. 한 마켓은 모두 Claude Opus 4.5를 썼고, 또 다른 마켓도 동일하게 Opus를 사용했다. 나머지 두 마켓에서는 참가자에게 50% 확률로 더 작은 모델인 Claude Haiku 4.5가 배정됐다. 즉 같은 사람이 동일한 물건을 들고도, 어떤 마켓에서는 Opus 에이전트로, 다른 마켓에서는 Haiku 에이전트로 협상한 셈이다.

결과 요약

항목수치
참가자69명
1인 예산100달러
마켓 개수4개 (Opus×2, 혼합×2)
성사된 거래186건
총 거래액약 4000달러
운영 기간약 1주

자료: Anthropic Project Deal 공식 페이지, 2026-04-25

겉으로 본 결과는 Anthropic 표현대로 “인상적”이다. 186건의 거래가 성사됐고, 사후 설문에서 참가자 다수는 “이런 서비스가 있다면 돈을 내고서라도 쓰겠다”고 답했다.

하지만 더 흥미로운 것은 모델 격차에서 드러난 비대칭이다. Anthropic은 Haiku에 배정된 사용자가 평균적으로 더 불리한 거래를 했다고 보고했다. 그런데 정작 본인들은 이 사실을 거의 인지하지 못했다. 본인의 협상 결과가 다른 사람보다 나빴는지 비교할 기준 자체가 없기 때문이다. TechCrunch는 이 지점을 두고 “현실 세계에서도 같은 일이 벌어진다면, 비싼 모델을 못 쓰는 쪽은 자기가 손해 보고 있다는 사실조차 모를 수 있다”고 짚었다.

긍정적 관점

Anthropic 연구진은 사전 협상 프로토콜 없이도 자연어 협상이 일관되게 작동했다는 점을 핵심 성과로 꼽는다. 에이전트 커머스가 단순 결제 자동화를 넘어, 매칭·가격 발견·합의 도출까지 한 번에 처리할 수 있다는 신호로 해석한다. 산업 측에서는 Stripe, Shopify, OpenAI 등이 비슷한 방향(에이전트 결제 표준)으로 움직이고 있는 만큼, Anthropic의 실험 데이터가 후속 표준 논의의 입력값이 될 가능성이 있다.

부정적 관점·우려

같은 결과가 우려의 단서이기도 하다. The Decoder는 “더 강한 모델이 더 좋은 거래를 따내고, 패배자는 그 사실조차 모른다”는 헤드라인으로 이번 결과를 정리했다. 모델 가격 차이가 협상력 차이로 직결되고, 그 차이가 노출되지 않는 구조라면 일종의 정보 비대칭이 시장에 내장되는 셈이다. 또한 이번 실험은 Anthropic 내부 직원 69명이라는 매우 작고 우호적인 표본에서 이뤄졌다. 일반 소비자 시장이나 기업 간 거래(B2B)로 일반화하려면 적대적 행위자, 사기, 평판 시스템 부재 같은 변수까지 함께 검증해야 한다.

전망

단기적으로는 이 실험이 표준 정립용 데이터로 활용될 가능성이 크다. Anthropic은 이미 같은 주에 Spotify·Uber·TurboTax 등 15개 컨슈머 앱을 Claude 커넥터에 추가했다(별도 자료). 한쪽에서는 사람-앱을 잇고, 다른 쪽에서는 에이전트-에이전트 거래를 실험한다. 두 축이 만나면 “사용자가 Claude에게 ‘자전거 한 대 100달러 안에서 사줘’라고 시키면, 다른 사용자의 Claude와 흥정해서 사오는” 시나리오가 가능해진다. 다만 신뢰·분쟁 해결·사기 방지가 뒷받침되지 않으면 일반 소비자 대상 출시까지는 시간이 더 필요할 것으로 보인다.

이번 결과는 결론보다는 좋은 질문지를 던진다. AI가 흥정을 잘한다면 좋은 일인가, 잘하는 쪽과 못하는 쪽 사이에 새 격차가 생기는 일인가. 후속 실험과 공개 데이터셋이 나올수록 답이 조금씩 보일 영역이다.


출처 및 참고 자료

함께 보면 좋은 글

이 글에 나오는 용어
해시태그