목록OCR (3)
꿈 많은 사람의 이야기
포스팅 개요본 포스팅은 Chandra라는 파이썬 OCR 라이브러리를 소개하는 포스팅입니다. 최근 RAG(Retrieval Augmented Generation)과 AI Agent에 대한 연구와 개발 수요가 증가하면서 문서 디지털화와 OCR(Optical Character Recognition) 기술에 대한 수요가 급증하고 있습니다.기존의 OCR 솔루션들은 텍스트만 추출할 뿐, 문서의 레이아웃 구조를 보존하지 못하는 한계가 있었죠.Chandra는 이러한 문제를 해결하기 위해 등장한 Vision-Language Model(VLM) 기반의 문서 OCR 시스템입니다.단순히 텍스트만 추출하는 것이 아니라, 문서의 레이아웃 정보까지 보존하면서 HTML, Markdown, JSON 형식으로 변환해주는 강력한 기능을 ..
포스팅 개요최근 AI 챗봇과 대화를 나누거나 긴 리포트를 요약시킬 때, "입력 가능한 글자 수를 초과했습니다"라는 메시지를 본 적 있으신가요? 현대의 대형 언어 모델(LLM)은 놀라운 성능을 보여주지만, 치명적인 약점을 안고 있습니다. 바로 '긴 텍스트'를 다루는 비용입니다.이는 LLM의 핵심 엔진인 '어텐션 메커니즘'이 입력된 텍스트의 길이가 길어질수록 계산량이 길이의 '제곱($O(n^2)$)'으로 폭증하는 근본적인 한계 때문입니다. 텍스트 1,000자를 처리하는 데 1초가 걸렸다면, 2,000자를 처리하는 데는 4초, 4,000자를 처리하는 데는 16초가 걸리는 식이죠. 이 때문에 수백만 자에 달하는 방대한 문서를 한 번에 처리하는 것은 사실상 불가능했습니다. 그런데 만약, 이를 피할 수 있는 기발한..
포스팅 개요대규모 언어 모델(Large Language Model) 기반의 RAG 시스템을 개발하면서, 가장 중요한 것은 데이터라고 다시 한번 체감하고 있습니다. 아무리 기존에 DX/AX를 준비했어도 LLM과 RAG 기반의 시스템에 well-fit되는 데이터는 더 다른 느낌인데요.특히 RAG 시스템 개발과 더 나아가 AI Agent(AI 에이전트) 시스템 개발을 하면 word, pdf, ppt, 한글(hwp) 데이터를 활용하여 내부 업무 효율화 등으로 시스템을 구축하는 경우가 많습니다.그렇다면 이러한 데이터를 LLM 등이 잘 이해할 수 있도록 잘 파싱(Parsing)하고 관리를 해야겠죠?업스테이지(Upstage)의 Document parser는 이러한 기존 레거시 형태의 문서 데이터들을 파싱해서 RAG에..