포스팅 개요
최근 AI 챗봇과 대화를 나누거나 긴 리포트를 요약시킬 때, "입력 가능한 글자 수를 초과했습니다"라는 메시지를 본 적 있으신가요? 현대의 대형 언어 모델(LLM)은 놀라운 성능을 보여주지만, 치명적인 약점을 안고 있습니다. 바로 '긴 텍스트'를 다루는 비용입니다.
이는 LLM의 핵심 엔진인 '어텐션 메커니즘'이 입력된 텍스트의 길이가 길어질수록 계산량이 길이의 '제곱($O(n^2)$)'으로 폭증하는 근본적인 한계 때문입니다. 텍스트 1,000자를 처리하는 데 1초가 걸렸다면, 2,000자를 처리하는 데는 4초, 4,000자를 처리하는 데는 16초가 걸리는 식이죠. 이 때문에 수백만 자에 달하는 방대한 문서를 한 번에 처리하는 것은 사실상 불가능했습니다.
그런데 만약, 이를 피할 수 있는 기발한 방법이 있다면 어떨까요? 최근에 DeepSeek-AI 연구진이 공개한 DeepSeek OCR: Contexts Optical Compression 논문에서는 기존과 다른 방법을 제안합니다.
"긴 텍스트를 처리하는 게 비싸다면, 텍스트를 '그림(이미지)'으로 바꿔버리면 어떨까?"라는 접근이죠.
본 포스팅은 DeepSeek-AI가 공개한 "DeepSeek-OCR: Contexts Optical Compression" 논문을 리뷰하면서, 이 '컨텍스트 광학 압축'이라는 혁신적인 아이디어가 어떻게 LLM의 한계를 돌파하고, OCR을 넘어 AI의 '기억' 방식까지 바꿀 수 있을지에 대한 인사이트를 정리합니다.

논문 출처: https://arxiv.org/pdf/2510.18234v1
포스팅 본문
위 개요에서 언급하였듯 본 포스팅은 DeepSeek AI가 공개한 Contexts Optical Compression 논문을 리뷰하고 인사이트를 정리하는 내용입니다. 하나씩 진행하도록 하겠습니다.
1. "광학 압축(Optical Compression)"은 실현 가능한가?
"한 장의 그림이 천 마디 말보다 낫다"는 격언처럼, 텍스트로 가득 찬 문서 이미지는 수천 개의 '텍스트 토큰'보다 훨씬 적은 수의 '비전 토큰(vision token)'으로 표현될 수 있습니다.
문제는 "압축했을 때 정보가 손실되지 않는가?"입니다. 연구진은 이 질문에 답하기 위해 OCR(광학 문자 인식)을 완벽한 '시험대'로 삼았습니다. 텍스트를 이미지로 압축했다가 다시 텍스트로 복원(OCR)했을 때, 원본과 얼마나 똑같은지(정밀도) 측정하면 정보 손실률을 정확히 알 수 있기 때문입니다.

Figure 1은 이 대담한 실험의 결과를 압축적으로 보여주는 그래프입니다.
Figure 1 - (a)
압축률-정밀도 트레이드오프로서 이 그래프는 "얼마나 압축할 수 있고, 얼마나 손해를 보는가?"에 대한 답입니다.
놀랍게도, 1,000개의 텍스트 토큰을 단 100개의 비전 토큰(하늘색 막대)으로 압축했을 때, 즉 압축률 10배에 달하는 구간에서도 정밀도는 97%에 육박합니다. 이는 LLM의 계산량을 100분의 1($100^2$ vs $10^2$)로 줄이면서도 정보는 거의 잃지 않는다는 의미입니다.
압축률이 20배(보라색 막대)에 달하는 극한의 상황에서도 정밀도는 0이 아닌 약 60%를 유지합니다. 이는 시스템이 한계 상황에서도 완전히 실패하지 않고 핵심 정보는 기억함을 보여줍니다.
Figure 1 - (b)
효율성을 보여주는 이 그래프는 "그래서 실전에서도 쓸만한가?"에 대한 답입니다.
그래프의 오른쪽 상단에 있을수록 (적은 토큰으로, 높은 성능) 좋은 모델입니다. DeepSeek-OCR(붉은색 점들)은 경쟁 모델(InternVL, Qwen2.5-VL 등)이 6,000개 이상의 토큰을 써야 낼 수 있는 성능을, 단 800개 미만의 토큰으로 가볍게 뛰어넘습니다.
이는 DeepSeek-OCR이 단순한 이론이 아니라, 경쟁사 대비 8배 이상 효율적인 실용적 기술임을 입증합니다.
2. 왜 새로운 아키텍처가 필요했는가? (기존 방식의 한계)
Figure 1의 결과가 이토록 놀랍다면, 왜 다른 사람들은 이 방식을 쓰지 않았을까요? 답은 "고해상도 문서를 효율적으로 처리하는 것이 지극히 어렵기 때문"입니다.

Figure 2는 기존 VLM 인코더들이 가진 문제점들을 명확히 보여줍니다.
- Figure 2 - (왼쪽): 이미지 처리를 위해 여러 개의 인코더를 병렬로 사용합니다. 이는 구조가 복잡하고 배포가 어렵습니다.
- Figure 2 - (가운데) : 고해상도 이미지를 너무 잘게 쪼개어 처리합니다. 이는 Figure 1(b)에서 본 것처럼, 너무 많은(6,000개 이상) 비전 토큰을 생성하여 비효율의 극치를 보여줍니다.
- Figure 2 - (오른쪽): 고해상도 이미지를 통째로 처리하려다 보니, GPU 메모리 사용량이 기하급수적으로 증가해 추론 속도가 극도로 느려집니다.
기존 방식들은 '고해상도'와 '효율' 중 하나를 포기해야 했습니다. DeepSeek-OCR은 이 두 마리 토끼를 모두 잡기 위해 완전히 새로운 인코더, 'DeepEncoder'를 설계했습니다.
3. DeepEncoder: 효율과 성능을 모두 잡은 "전문가 팀"
Figure 3은 DeepSeek-OCR의 핵심 구성 요소인 DeepEncoder 아키텍처를 상세히 보여줍니다.
이 구조는 Figure 2에서 제기된 고해상도 처리의 비효율성, 즉 '토큰 폭발'과 '메모리 폭발' 문제를 해결하기 위해 정교하게 설계되었습니다.

전체 과정은 1024x1024와 같은 고해상도 이미지가 16x16 크기의 패치로 분할되어 4096개와 같은 다수의 초기 비전 토큰이 생성되는 것에서 시작합니다.
- 첫째로, 이 토큰들은 SAM(Segment Anything Model) 인코더로 전달됩니다. SAM은 '윈도우 어텐션(Window Attention)' 방식을 사용하여, 각 토큰이 전체 모든 토큰이 아닌 자신의 주변부 토큰하고만 상호작용하게 합니다. 이 접근 방식은 GPU 메모리 사용량을 낮게 유지하면서도 이미지의 세밀하고 '국소적인(Local)' 특징(글자의 형태, 표의 선 등)을 효과적으로 추출할 수 있게 합니다.
- 둘째로, SAM을 통과한 피처맵(여전히 4096개 토큰)은 이 아키텍처의 핵심 혁신인 16x 합성곱(Convolutional) 압축기를 거칩니다. 이 2계층 CNN 모듈은 피처맵을 공간적으로 다운샘플링(Downsampling)하여 토큰의 '개수'를 1/16로 극적으로 줄입니다. 예를 들어, 4096개의 토큰이 256개의 토큰으로 압축됩니다. 이 단계가 바로 연산량의 병목 현상을 근본적으로 해결하는 '광학 압축'의 핵심입니다.
- 셋째로, 토큰 수가 256개로 관리 가능한 수준이 되면, 이 압축된 토큰들은 CLIP(Contrastive Language-Image Pre-Training) 인코더로 전달됩니다. CLIP은 '글로벌 어텐션(Global Attention)'을 사용하여, 256개의 모든 토큰이 서로 상호작용하며 문서 전체의 '전역적인(Global)' 맥락(문서의 레이아웃이나 의미적 구조 등)을 파악하도록 합니다. 4096개 토큰에 직접 글로벌 어텐션을 적용하는 것($O(n^2)$)은 계산적으로 불가능에 가깝지만, 압축된 256개 토큰에는 효율적으로 적용할 수 있습니다.
- 최종적으로, 국소적 특징(SAM)과 전역적 맥락(CLIP)이 모두 반영되고 압축된 256개의 비전 토큰이 DeepSeek-3B LLM 디코더로 전달되어 최종 텍스트를 생성합니다. 이처럼 [SAM(로컬 처리) → Conv(압축) → CLIP(전역 처리)]로 이어지는 3단계 직렬 구조는, 고해상도 이미지의 세부 정보를 잃지 않으면서도 계산 비용을 획기적으로 절감하는 최적화 방법이라고 볼 수 있습니다.
4. 실용성을 위한 설계: 다중 해상도 및 처리 방식 지원
DeepSeek-OCR 모델은 학술적 증명을 넘어 실제 운영 환경에서의 실용성을 확보하기 위해 유연한 처리 방식을 지원합니다. Figure 4는 단일 모델이 다양한 입력 해상도에 대응하는 방식을 보여줍니다.

이는 Figure 1(a)의 압축률-정밀도 트레이드오프를 사용자가 직접 제어할 수 있도록 설계한 것입니다. 예를 들어, Tiny (64 토큰)나 Small (100 토큰) 모드는 더 적은 비전 토큰을 사용하여 빠른 처리가 가능하게 하며, Base (256 토큰)나 Large (400 토큰) 모드는 더 많은 비전 토큰을 사용하여 높은 정밀도를 보장합니다.
모델은 입력 이미지의 특성에 따라 원본 비율을 무시하고 리사이즈(Resize)하거나, 비율을 유지하며 패딩(Padding)을 추가하는 방식을 유연하게 적용합니다. 특히 Gundam 모드는 이미지를 여러 타일(Tile)로 분할하고 전체적인 글로벌 뷰(Global view)와 함께 처리함으로써, 신문과 같이 매우 크거나 긴 이미지에도 효과적으로 대응할 수 있습니다.
이러한 다중 모드 지원은 단일 모델이 다양한 사용자의 요구(속도 중시 vs. 정확도 중시)에 부응할 수 있게 하여 생산성을 극대화합니다.
5. 학습 목표의 확장: 단순 인식을 넘어선 '문서 구조 이해'
이 모델의 궁극적인 목표는 단순한 문자 인식(Traditional OCR)을 넘어섭니다. Figure 5는 모델이 학습하는 '정교한 주석(Fine annotations)' 데이터의 형식을 보여주며, 이는 모델의 학습 목표가 무엇인지를 명확히 드러냅니다. 모델은 단순히 텍스트의 내용을 예측하는 것이 아니라, 해당 내용의 의미론적 종류(예: table, equation)와 이미지 내 정확한 위치 좌표([[...]])까지 함께 학습합니다.

즉, 모델은 단순히 글자를 '읽는(Reading)' 수준을 넘어, 문서의 '구조와 레이아웃을 이해(Understanding)'하도록 훈련됩니다. 이것이 DeepSeek-OCR이 'LLM 중심의 통합형 모델'이라 불리는 이유이며, LLM 디코더가 이 구조화된 정보를 입력받아 단순 텍스트가 아닌 마크다운(Markdown) 변환이나 구조화된 데이터 추출 같은 고차원적인 작업을 수행할 수 있게 만듭니다. 논문은 이를 기존 OCR 1.0을 넘어서는 'OCR 2.0'의 영역으로 정의합니다.
논문에서 소개하는 실제 성능 결과는 아래와 같습니다.


마무리
DeepSeek-OCR 논문은 LLM의 $O(n^2)$ 연산량 한계를 '컨텍스트 광학 압축'이라는 새로운 접근법으로 해결할 수 있는 가능성을 실증적으로 제시했습니다. Figure 1은 10배의 압축률에서도 97%의 높은 정밀도를 달성할 수 있음을 증명했으며, Figure 3의 [SAM → Conv → CLIP] 아키텍처는 Figure 2에서 지적된 기존 모델들의 한계를 기술적으로 극복하는 효율적인 방안을 제안했습니다. 또한 Figure 4와 Figure 5는 이 모델이 실제 적용을 위한 유연성과 고차원적인 문서 이해 능력을 갖추었음을 보여줍니다.
하지만 논문이 제시하는 가장 중요한 비전은 OCR 자체를 넘어섭니다. 논문의 초록(Abstract)은 이 연구가 "LLM의 역사적 장기 컨텍스트 압축 및 기억 망각 메커니즘"을 위한 초기 연구임을 명시합니다. 즉, OCR은 이 광학 압축 아이디어의 실현 가능성을 검증하기 위한 '시험대'였습니다. 이 연구의 궁극적인 목표는, 챗봇의 대화 기록과 같은 방대한 텍스트 스트림을 이미지로 렌더링하고, 정보의 중요도나 시간에 따라 Tiny부터 Large까지 해상도를 달리하여(압축률 조절) 저장하는 것입니다. 이는 인간의 '망각 곡선'처럼 오래된 정보는 적은 비용으로 핵심만 보존하는 효율적인 메모리 관리 방식이 될 수 있습니다. 이 '광학적 기억' 방식은 O(n^2)의 한계를 우회하여 LLM이 사실상 '무한한 컨텍스트'를 다룰 수 있게 하는 잠재적 해결책으로서, 제안한 연구라고 볼 수 있습니다.
긴 글 읽어주셔서 감사합니다.
'인공지능(AI) > Data processing' 카테고리의 다른 글
| Chandra OCR이란? 강력한 텍스트 추출 OCR Python 라이브러리 소개와 예제(example) (0) | 2025.12.20 |
|---|