목록LLM (34)
꿈 많은 사람의 이야기
포스팅 개요본 포스팅은 2026년 2월 구글(Google)과 버지니아 대학(University of Virginia) 공동 연구팀이 발표한 Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens 논문을 리뷰하고, 이 연구가 실제 AI 사용자들에게 어떤 의미를 가지는지까지 개인적인 생각을 정리한 포스팅입니다.최근 추론 모델(Reasoning Model)이 AI 업계의 주류로 자리 잡으면서, 이른바 "길게 생각할수록 더 정확하다"는 가정이 업계의 암묵적인 통념이 되었습니다. 그런데 어느 순간부터 그 반대 방향의 연구들이 조금씩 나오기 시작했고, 이 논문도 그 흐름 중 하나인 연구입니다.논문의 핵심 주장을 한 문장으로..
포스팅 개요본 포스팅은 Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions라는 논문을 리뷰하는 포스팅입니다. 최근 AI 에이전트(AI Agent) 기술이 빠르게 발전하면서, 단순히 하나의 LLM이 질의응답을 수행하는 것을 넘어서 여러 에이전트가 협력하여 복잡한 작업을 수행하는 Multi-Agent LLM 시스템이 주목받고 있습니다.LangGraph, AutoGen, CrewAI와 같은 프레임워크의 등장으로 이러한 다중 에이전트 시스템의 배포가 급격히 가속화되었는데요. 이러한 시스템들은 코드 생성, 연구 종합, 기업 자동화 등 다양한 영역에서 인상적인 성능을 보여주고 있습니다...
포스팅 개요본 포스팅은 Carnegie Mellon University 연구진이 발표한 "Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks" 논문을 리뷰하는 포스팅입니다. 최근 AI 코딩 도구의 발전으로 바이브 코딩(Vibe Coding)이라는 새로운 프로그래밍 패러다임이 등장했는데요. 개발자가 자연어로 요청하면 LLM 에이전트가 복잡한 코딩 작업을 수행하는 방식입니다.Cursor, Claude Code와 같은 AI 기반 개발 도구들이 급격히 인기를 얻으면서, 설문조사에 따르면 개발자의 75%가 바이브 코딩을 사용하고 있으며 그 중 90%가 만족한다고 응답했습니다. 심지어 Anthropic ..
포스팅 개요본 포스팅은 최근 RAG(Retrieval-Augmented Generation)의 한계를 극복하기 위해 제안된 CRAG(Corrective Retrieval Augmented Generation)라는 논문을 리뷰하는 포스팅입니다.LLM(Large Language Model)이 환각(Hallucination) 현상을 겪는다는 것은 이제 널리 알려진 사실입니다. 이를 해결하기 위해 외부 지식을 검색해 오는 RAG 기술이 필수적으로 사용되고 있죠. 하지만, 만약 "검색해 온 문서 자체가 틀렸거나 관련이 없다면" 어떻게 될까요? 기존 RAG는 검색된 문서를 맹목적으로 신뢰하다 보니, 잘못된 정보를 바탕으로 더 그럴듯한 거짓말을 만들어내곤 합니다. CRAG는 바로 이 지점에서 출발합니다. 검색된 문서..
포스팅 개요최근 AI 챗봇과 대화를 나누거나 긴 리포트를 요약시킬 때, "입력 가능한 글자 수를 초과했습니다"라는 메시지를 본 적 있으신가요? 현대의 대형 언어 모델(LLM)은 놀라운 성능을 보여주지만, 치명적인 약점을 안고 있습니다. 바로 '긴 텍스트'를 다루는 비용입니다.이는 LLM의 핵심 엔진인 '어텐션 메커니즘'이 입력된 텍스트의 길이가 길어질수록 계산량이 길이의 '제곱($O(n^2)$)'으로 폭증하는 근본적인 한계 때문입니다. 텍스트 1,000자를 처리하는 데 1초가 걸렸다면, 2,000자를 처리하는 데는 4초, 4,000자를 처리하는 데는 16초가 걸리는 식이죠. 이 때문에 수백만 자에 달하는 방대한 문서를 한 번에 처리하는 것은 사실상 불가능했습니다. 그런데 만약, 이를 피할 수 있는 기발한..
포스팅 개요대규모 언어 모델(Large Language Model) 기반의 RAG 시스템을 개발하면서, 가장 중요한 것은 데이터라고 다시 한번 체감하고 있습니다. 아무리 기존에 DX/AX를 준비했어도 LLM과 RAG 기반의 시스템에 well-fit되는 데이터는 더 다른 느낌인데요.특히 RAG 시스템 개발과 더 나아가 AI Agent(AI 에이전트) 시스템 개발을 하면 word, pdf, ppt, 한글(hwp) 데이터를 활용하여 내부 업무 효율화 등으로 시스템을 구축하는 경우가 많습니다.그렇다면 이러한 데이터를 LLM 등이 잘 이해할 수 있도록 잘 파싱(Parsing)하고 관리를 해야겠죠?업스테이지(Upstage)의 Document parser는 이러한 기존 레거시 형태의 문서 데이터들을 파싱해서 RAG에..
포스팅 개요본 포스팅은 거대 언어 모델(LLM)의 추론(inference) 과정에서 발생하는 심각한 메모리 병목 현상을 해결하기 위한 핵심 최적화 기법인 Grouped-Query Attention(GQA)을 소개합니다. GQA는 구글 리서치에서 제안한 기술로 기존의 표준 Attention 방식인 Multi-Head Attention(MHA)의 높은 성능은 유지하면서, 추론 속도를 극대화한 Multi-Query Attention(MQA)의 장점을 결합한 아키텍처입니다. 본 포스팅에서는 MHA에서 MQA를 거쳐 GQA에 이르기까지 Attention 메커니즘의 발전 과정을 추적하고, GQA가 어떻게 속도와 성능이라는 두 마리 토끼를 모두 잡을 수 있었는지 그 원리를 상세히 분석합니다. 또한, Llama 2, ..
포스팅 개요본 포스팅은 거대 언어 모델(LLM)의 예측 불가능한 '성격(특징) 변화'라는 중대한 안전성 문제를 해결하기 위한 새로운 프레임워크를 제시한 논문, "Persona vectors: Monitoring and controlling character traits in language models"를 리뷰합니다. 본 논문은 Anthropic과 UT Austin 등 유수 기관의 공동 연구로, LLM 내부에서 '악의(evil)', '아첨(sycophancy)'과 같은 추상적인 성격(특징) 특성이 어떻게 표현되는지를 '페르소나 벡터(Persona Vector)'라는 개념을 통해 정량적으로 분석하고 제어하는 방법을 제안합니다. 특히, 파인튜닝 과정에서 발생하는 의도치 않은 성격 변질, 즉 '창발적 비정렬(..
포스팅 개요이번 포스팅에서는 이전 글에서 다루었던 LangGraph의 기본 개념을 넘어, 한층 더 지능적이고 유연한 LLM 에이전트를 구축하는 방법을 알아봅니다. LangGraph의 강력한 기능인 도구(Tool) 사용, 조건부 엣지(Conditional Edge), 그리고 사용자의 개입을 허용하는 사람의 개입(Human-in-the-Loop) 메커니즘을 집중적으로 다룹니다.LangGraph를 사용하여 에이전트가 상황에 따라 동적으로 행동을 결정하고, 스스로 해결할 수 없는 문제에 대해서는 사람에게 도움을 요청하여 작업을 일시 중단했다가 피드백을 받아 재개하는 전체 과정을 상세한 코드 예제와 함께 살펴보겠습니다. 본 포스팅을 작성하면서 참고한 자료는 다음과 같습니다.https://github.com/lan..
포스팅 개요이번 포스팅에서는 랭체인(LangChain) 생태계의 라이브러리인 랭그래프(LangGraph)에 대해서 알아봅니다. LangGraph란 무엇인지 알아보고, LangGraph를 사용하여 LLM 애플리케이션의 로직과 흐름을 명확하게 제어하는 방법을 알아봅니다. 특히 LangGraph의 핵심 구성 요소인 상태(State), 노드(Node), 엣지(Edge)에 대해 자세히 살펴보고, LLM을 연동하여 간단한 챗봇 에이전트(Agent)를 만들어보는 예제 코드를 살펴봅니다. 본 포스팅은 아래 글들을 참고해서 작성하였습니다.https://www.langchain.com/langgraphhttps://github.com/langchain-ai/langgraphhttps://langchain-ai.github..