Tech / AI / 자동차 최신 정보

  • Home
  • IT | AI
  • 한국어로 Claude에게 명령하면 토큰이 2~3배 더 든다?

한국어로 Claude에게 명령하면 토큰이 2~3배 더 든다?

Claude에 같은 내용을 한국어로 입력하면 영어보다 토큰이 2~3배 더 소모됩니다. 요금도, 컨텍스트 한도도 모두 토큰 기준입니다. 한국어 사용자는 같은 돈을 내고 영어 사용자의 절반도 안 되는 서비스를 받고 있는 셈입니다. 이것이 AI 업계가 조용히 만들어온 ‘언어세(Language Tax)’입니다.


Claude로 코딩 작업을 하다 보면 이상한 경험을 합니다. 영어로 쓴 프롬프트는 잘 되는데, 한국어로 설명하면 어느 순간 컨텍스트가 잘리거나 한도에 금방 도달합니다. 기분 탓이 아닙니다. 구조적인 문제입니다.

한국어, 일본어, 기타 CJK 언어 사용자들은 토크나이저 비효율로 인해 구조적으로 불리한 위치에 있습니다. 한국 개발자가 영어 개발자와 동일한 코딩 작업에 Claude Code를 사용할 때, 같은 구독 요금을 내면서도 5시간 창 한도와 주간 한도에 훨씬 더 빨리 도달합니다. Hacker News


토큰이란 무엇인가 — AI가 언어를 읽는 최소 단위

Claude에게 텍스트를 보내면, Claude는 그것을 문자나 단어 단위로 읽지 않습니다. ‘토큰’이라는 단위로 쪼개어 처리합니다.

토크나이저는 텍스트를 LLM이 처리할 수 있는 이산적 단위로 분해하는 과정입니다. 모든 LLM은 텍스트를 문자나 단어가 아닌 토큰으로 봅니다. 정수 ID로 표현되는 고정된 어휘에서 나온 서브워드 단위입니다. 토크나이저가 어디서 분리할지 결정합니다. 때로는 단어 전체가 하나의 토큰이고, 때로는 단어 하나가 4개의 토큰이 됩니다. SiliconANGLE

이 분리 방식이 API 요금, 컨텍스트 윈도우 한도, 그리고 모델이 얼마나 많은 내용을 한 번에 처리할 수 있는지를 결정합니다.

가장 널리 쓰이는 방식은 **BPE(Byte Pair Encoding)**입니다. 현대 토크나이저의 알고리즘으로, 1994년 데이터 압축 기술에서 유래해 2015년 자연어 처리에 적용됐습니다. GPT-4o, Claude, 대부분의 대형 언어 모델이 BPE의 변형을 사용합니다. 9to5Mac


왜 한국어는 토큰이 더 많이 드나

문제의 뿌리는 학습 데이터에 있습니다.

BPE 토크나이저는 주로 영어로 된 학습 데이터를 기반으로 어휘를 구축합니다. 영어 단어는 효율적이고 압축된 표현을 갖습니다. CJK 문자는 학습 데이터에서 덜 빈번하게 나타나기 때문에, 각 문자가 하나 이상의 토큰으로 매핑되는 경우가 많습니다. 9to5Mac

한국어는 여기서 특히 불리합니다. Claude의 BPE 토크나이저는 일반적인 영어 단어와 서브워드에 대한 대규모 어휘를 가지고 있어 영어를 효율적으로 인코딩합니다. 그러나 한국어는 복잡한 형태론적 시스템(교착어)을 사용하며 수천 가지의 가능한 단어 형태가 있어, 토크나이저가 빈번하게 문자 수준이나 소규모 서브워드 수준 인코딩으로 후퇴해 토큰 수가 급격히 증가합니다. Hacker News

실제 Claude 토크나이저를 분석한 연구 결과도 이를 뒷받침합니다. Claude의 어휘에서 라틴 문자 토큰이 압도적 다수를 차지하며, 한국어와 키릴 문자 토큰은 각각 수백 개에 불과합니다. 한국어 글자 ‘국’은 입력 시 1토큰이지만 출력 시 2토큰으로 처리되고, ‘둘’은 입력 시 2토큰, 출력 시 3토큰이 소모됩니다. 매우 일반적인 한국어 글자도 거의 사용되지 않는 문자만큼의 토큰을 차지합니다. OpenAIXDA Developers

결과는 명확합니다. 한국어 문장은 동일한 의미의 영어 문장보다 2~3배 더 많은 토큰을 사용할 수 있습니다. 9to5Mac


얼마나 차이나나 — 실제 비용으로 환산하면

숫자로 보면 더 명확합니다.

같은 코딩 작업을 하는 한국 개발자는 영어 개발자보다 2~3배 더 많은 토큰을 소비합니다. Pro 플랜(월 20달러)에서 한국어 사용자는 영어 사용자가 받는 코딩 세션 시간의 30~50%만 받을 수 있습니다. Max 플랜(월 100~200달러)에서도 동등한 작업에 2~3배 빠르게 할당량을 소진합니다. Hacker News

컨텍스트 윈도우 문제는 더 심각합니다. 영어로 논의할 때 200K 토큰 이내에 편안하게 들어가는 코드베이스가 한국어로 논의하면 한도에 근접하거나 초과할 수 있습니다. 이는 더 잦은 압축과 컨텍스트 품질 저하를 강제합니다. Hacker News

API를 사용하는 기업도 예외가 아닙니다. 벤더별로 같은 텍스트에 대한 토큰 수 계산이 다르며, 이로 인해 비용 예측이 두 자릿수 퍼센트씩 빗나갑니다. 재무 파트너가 같은 워크로드에 대한 벤더별 비용 예측을 요청할 때, 엔지니어가 하나의 토크나이저로 계산해 Claude 행이 12%, Gemini 행이 15% 차이가 나도 아무도 설명하지 못하는 상황이 생깁니다. Technology data bank


보이지 않는 ‘언어세’

한국 개발자 커뮤니티에서는 이 문제를 ‘언어세(Language Tax)’라고 부릅니다.

이것은 보이지 않는 ‘언어세’를 만들어냅니다. 한국어 사용자는 더 비싼 플랜을 선택해서가 아니라 단순히 그들이 사용하는 언어 때문에 프리미엄을 지불합니다. 이는 투명하지도 않고 공정하지도 않습니다. Hacker News

실제로 GitHub의 Claude Code 공식 이슈 트래커에는 이 문제를 지적하는 피처 요청이 2026년 2월에 올라왔습니다. 한국, 일본, 중국 및 기타 비영어권 국가는 Claude 사용자 기반의 상당하고 성장하는 부분을 차지합니다. Anthropic이 글로벌로 확장함에 따라 이 토크나이제이션 격차는 이러한 시장에서 점점 더 눈에 띄는 진입 장벽이 될 것입니다. 한국만 해도 AI 도입률이 높은 매우 활발한 개발자 커뮤니티를 보유하고 있습니다. Hacker News


해결책은 있나 — 세 가지 방향

커뮤니티가 제안하는 해결 방향은 크게 세 가지입니다.

1. 언어별 사용량 배수 적용 세션에서 사용되는 주요 언어를 감지하고 사용량 할당에 배수를 적용하는 방법입니다. 예를 들어 한국어·일본어 사용자에게 1.5~2배 토큰 할당을 부여합니다. 토크나이저를 변경하지 않고도 동등한 경쟁의 장을 만듭니다. Hacker News

2. 다국어 토크나이저로 교체 더 많은 한국어 형태소와 일반적인 단어 형태를 포함하도록 토크나이저를 재훈련하거나 확장하는 방법입니다. Qwen 같은 모델은 다국어 토크나이저가 이 격차를 극적으로 줄일 수 있음을 이미 증명했습니다. 모든 비영어 사용자에게 영구적으로 도움이 됩니다. Hacker News

3. 토큰이 아닌 다른 기준으로 측정 사용량 한도를 원시 토큰 수에서 부분적으로 분리하는 방법, 예를 들어 요청 횟수나 컴퓨팅 시간으로 측정하는 것을 탐색할 수 있습니다. Hacker News

단기적으로는 최소한 투명성이 필요합니다. 요금 페이지와 플랜 비교 페이지에 토큰 사용량이 언어에 따라 다르다는 사실을 명확히 문서화해야 합니다. 비영어 사용자가 어떤 플랜을 선택할지 정보를 바탕으로 결정을 내릴 수 있도록 해야 합니다. Hacker News


지금 당장 할 수 있는 실용적인 팁

구조적 해결을 기다리는 동안, 한국어 사용자가 토큰을 아낄 수 있는 방법들이 있습니다.

핵심 지시는 영어로, 맥락은 한국어로 — 코드 관련 명령어, 파일명, 함수명, 기술 용어는 영어로 입력하면 토큰 효율이 크게 올라갑니다. 코드베이스의 변수명을 한국어로 쓰지 않는 이유와 같습니다.

시스템 프롬프트는 영어로 — API를 사용한다면 시스템 프롬프트만 영어로 작성해도 전체 세션의 토큰 효율이 달라집니다.

사전에 토큰 수를 확인하라 — 앤트로픽은 메시지를 보내기 전에 토큰 수를 미리 확인할 수 있는 토큰 카운팅 API를 제공합니다. 프롬프트에 대한 정보에 입각한 결정을 내리는 데 도움이 됩니다. Cyber Security News

불필요한 조사와 존댓말을 줄여라 — 한국어의 조사와 어미 변화는 형태론적으로 복잡해 토큰 소비가 큽니다. 간결한 반말체나 개조식 문장이 토큰 절감에 유리합니다.


마치며 — AI의 글로벌화, 언어 형평성이 다음 과제

한국어나 중국어 사용자는 같은 대화에 영어보다 훨씬 더 많은 비용이 든다는 사실이 AI API를 사용하는 대부분의 사람들이 간과하는 또 다른 비용 차원입니다. 9to5Mac

AI 모델의 성능 경쟁은 빠르게 진행되고 있습니다. 하지만 전 세계 사용자가 정말 동등한 조건에서 AI를 쓸 수 있는지에 대한 질문은 아직 충분히 다뤄지지 않았습니다. 영어가 모국어가 아닌 수십억 명의 사람들이 AI를 쓰기 위해 조용히 언어세를 내고 있습니다.

토크나이저 하나가 만들어낸 불평등. 다음 번 Claude에 한국어로 질문할 때, 그 사실을 한 번쯤 떠올려 보세요.

이 글은 2026년 4월 29일 기준으로 작성됐습니다. 토큰 사용량과 비용 계산은 앤트로픽의 공식 토큰 카운팅 API(platform.claude.com/docs)로 직접 확인하세요. 언어별 토큰 효율은 사용 언어, 문장 구조, 컨텍스트에 따라 차이가 있을 수 있습니다.

#Claude토큰 #한국어토큰 #언어세 #BPE토크나이저 #토큰비용 #Claude한국어 #LLM토크나이저 #ClaudeCode #AI비용


Releated Posts

OpenAI, 스마트폰 만든다 — 앱 대신 AI 에이전트가 다한다

📌 핵심 요약: 애플 하드웨어 계획으로 유명한 업계 애널리스트 밍치 궈가 OpenAI가 MediaTek, Qualcomm과 협력해 스마트폰 칩을 개발…

ByByderella sohn 4월 30, 2026

GPT-5.5 출시 — 덜 안내해도 끝까지 완수하는 OpenAI의 새 기준

📌 핵심 요약: OpenAI가 2026년 4월 23일, 가장 스마트하고 직관적인 모델이라고 밝힌 GPT-5.5를 공개했습니다. 코드명은 ‘Spud’. GPT-5.4 출시로부터…

ByByderella sohn 4월 29, 2026

OpenAI Codex 대규모 업데이트 — 코딩 툴을 넘어 맥 전체를 제어

📌 핵심 요약: OpenAI가 2026년 4월 16일 Codex의 대규모 업데이트를 공개했습니다. 매주 300만 명 이상의 개발자가 사용하는 Codex가…

ByByderella sohn 4월 21, 2026

크롬이 AI 브라우저로 완전히 바뀌고 있다 — 오토 브라우즈부터 Skills까지

📌 핵심 요약: 구글이 2026년 들어 크롬에 AI 기능을 집중적으로 쏟아붓고 있습니다. 1월 제미나이 사이드패널과 오토 브라우즈, 3월…

ByByderella sohn 4월 21, 2026

댓글 남기기

Sohnderella에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기