Skip to content
Go back
🥜 Nugget

Claude Code는 어떻게 신뢰를 잃어가고 있는가

Theo(t3.gg)는 최근 커밋 메시지에 openclaw.inbound_meta.v1 같은 OpenClaw 관련 JSON 조각이 들어간 상태에서 claude -p "hi"를 실행했다. Claude Code가 You're out of extra usage, 즉 추가 사용량 소진 오류를 반환했다. OpenClaw를 사용한 게 아니다. 비어있는 프로젝트 저장소에서 커밋 메시지만 작성한 것이다.

Claude Code 논란을 단순히 “OpenClaw를 막았냐”라는 이슈로 오해할 수 있지만, 핵심은 그것이 아니다. 경쟁사 제품 메시지가 커밋에만 들어간다고 구독 사용이 거부되고 추가 사용량 과금으로 라우팅된 것이다.

AI 에이전트가 저장소, 커밋, 이슈, 내부 문서, CI/CD 까지 읽고 실행하는 시대에, 개발자가 구매한 도구의 실행 조건과 과금 경로를 예측할 수 있느냐는 질문이다.

OpenClaw 뿐일까? Hermes 도 동일한 이슈가 있었다. 대문자 HERMES.md가 최근 깃 커밋 메시지에 있으면 Claude Code 요청이 맥스 플랜 기본 사용량이 아니라 추가 사용량 과금으로 라우팅됐다고 한다.

이 이슈 또한 파일명이 아니라 커밋 메시지 문자열이 트리거였고, 이슈 작성자는 기본 플랜 사용량이 많이 남아 있는 상태에서 extra usage credit, 추가 사용량 크레딧 $200.98이 소진됐다고 밝혔다.

Anthropic은 이를 “과하게 동작한 남용 방지 시스템”이라고 설명했고, 나중에 환불과 크레딧을 제공한다고 했다.

이게 의도적인 경쟁 툴 검열이었는지, 단순한 남용 방지 버그였는지는 사실 지금 단계에서 단정하기 어렵다. 그리고 굳이 단정할 필요도 없다.

기업과 개발자 입장에서는 의도보다 예측 가능성이 더 중요하다. 내 repo(저장소)의 커밋 메시지, 문서, 이슈, config(설정) 안의 어떤 문자열이 벤더의 숨은 정책을 건드려서 요청 거부나 과금 경로 변경을 일으킬 수 있다면, 그건 이미 인프라 리스크다.

흥미로운 대비는 OpenAI의 Where the goblins came from이다. OpenAI도 이상한 문제가 있었다. GPT 모델이 goblin, gremlin 같은 표현을 과하게 쓰는 현상이 있었고, OpenAI는 그 원인을 성격 시스템 프롬프트, 보상 신호, 강화학습 과정에서 생긴 문체 이슈의 확산으로 설명했다. 완벽한 해결책이었다는 말은 아니다.

다만 최소한 “무슨 일이 있었고, 왜 생겼고, 뭘 조치했는지”를 공식적으로 공개했다. 비용 문제는 아니었지만 어쩌면 그들의 핵심 경쟁력이라고 할 수 있는 모델 성능의 결함을 오픈하고 설명한 것이다.

AI 제품(아니 모든 소프트웨어)에서 신뢰는 “문제가 없음”으로만 만들어지지 않는다. 오히려 문제는 반드시 생긴다. 모델은 이상한 말을 하고, 라우팅은 꼬이고, 과금 예외 상황은 터진다. 중요한 건 그다음이다.

사용자가 납득할 수 있게 설명하는가. 정책과 과금 기준을 명확히 공개하는가. 영향을 받은 사용자를 먼저 찾아 보상하는가.

이 세 가지가 안 되면, 아무리 모델이 좋아도 개발자들은 마음속으로 탈출 계획(exit plan)을 만들기 시작한다.

요즘 Claude Code와 Codex를 가르는 기준이 순수 성능이라고 생각하지 않는다. 둘 다 충분히 좋고, 둘 다 이상한 짓을 한다. 솔직히 그 둘을 성능으로 가르는건 여기 스레드에 계시는 탑급 개발자 1%도 안될 것이다. 대부분 사람들에게는 둘의 차이는 근소하다.

하지만 개발자들은 사용자이자 소비자이다. 소비자가 결국 보는 것은 제품 너머의 브랜드와 신뢰다.

“이 회사가 내 작업 흐름을 갑자기 흔들지 않을까?” “내가 비용과 제한을 예측할 수 있을까?” “문제가 생기면 공개적으로 설명하고 바로잡을까?” 이 질문에 답하는 회사가 이긴다.

Anthropic은 Claude라는 강력한 브랜드를 갖고 있다. 그래서 더 아쉽다. AI는 엄청난 산업 변화를 가속화하는 대가로 각 회사들은 엄청난 출혈 경쟁을 하고 있다. 그들 입장에서는 OpenAI 와 Google 과의 경쟁도 골치아픈데, 토큰 물량 공세를 하는 중국발 모델들의 위협도 어마어마하다. (한국은.. ㅠ)

상장을 위해 기업 생존을 위해 비용 최적화는 필수로 따라야 하는 것이다.

Anthropic 는 직원 유지율, 특히 개발자 근속 기간이 다른 AI 회사에 비해 월등히 높은 회사다. 하지만 기업 운영은 개발자들의 빛나는 아이디어와 실행력으로만 완성되지 않는다. 그것을 뒷받침하는 운영, 재무 관리, 고객 대응에 대한 전략도 따라줘야 한다. 그들을 탑으로 올려주었던 필요조건들이 뒷밤침되어지지 못하는 충분조건으로 신뢰를 잃는 건 안타깝다.

Pro에서 갑자기 Claude Code 를 뺐다가 넣었다가 토큰이 급격하게 사라지는(최근 캐싱 이슈 등) 등의 사용량 정책을 투명하지 않게 운영하는데서 오는 사용자들의 피로감, 고객 지원 흐름이 엔지니어링 버그를 제대로 라우팅하지 못하는 모습이 반복되면 개발자 신뢰는 생각보다 빨리 사라진다.

개발자는 까다롭지만 단순하다. 좋은 도구는 좋아한다. 다만 블랙박스 과금과 모호한 정책 변경은 정말 싫어한다. 지금 Codex 의 위상을 봐라. 3개월 전이 기억나는가? OpenAI 가 잘해서일까? 내가 볼때 Anthropic 의 삽질에 대한 반대급부가 더 크다.

결국 이 사건이 말하는 방향은 꽤 분명하다. 모델은 외부에서 빌려 쓸 수 있다. 하지만 에이전트 실행 레이어, 정책 레이어, 비용 통제 레이어는 점점 사용자와 기업 쪽으로 내려올 것이다. 멀티 클라우드가 그랬듯이, LLM도 “가장 똑똑한 하나”보다 “예측 가능하고 교체 가능한 시스템”을 요구받게 된다.

Claude가 좋아도 Anthropic만 믿을 수 없고, Codex가 좋아도 OpenAI만 믿을 수 없는 시기가 온다.

내 결론은 이렇다. 이번 논란의 핵심은 Claude Code가 아니다.

핵심은 AI 에이전트를 인프라로 쓸 때 필요한 신뢰의 기준이 바뀌고 있다는 점이다. 앞으로 개발자들이 원하는 건 단순히 더 똑똑한 모델이 아니라, 더 투명한 실행 조건, 더 예측 가능한 과금, 더 빠른 사후 분석, 더 쉬운 escape hatch(탈출구)다.

AI 회사의 브랜드 파워는 모델 성능에서 나오는 것 같지만, 마지막에는 결국 사용자 신뢰에서 나온다.

반응 불러오는 중…

추가로 읽으면 좋은 글

  • '점수는 저절로 따라오는 것이다'를 읽고 — 리더십에 관하여

    빌 월시의 리더십 책 「점수는 저절로 따라오는 것이다」 독서 후기. 좋은 재능과 나쁜 태도의 등식, 가르침이 곧 리더십의 정의라는 선언, 위로 향하는 리더십까지 — 슈퍼볼 3회 우승 감독이 남긴 리더십 원칙을 내 실패 위에 겹쳐 읽은 기록.