목록AI (19)
꿈 많은 사람의 이야기
나는 지금까지 일하면서, 지난 2025년만큼 빠르게, 그리고 효과적으로 결과물을 낸 적이 없다. 동시에 2025년만큼 빠르게 지친 적도 없다. 두 이유 다 AI 때문이다. 나는 지금 데이터사이언티스트 직책을 담당하고 있다. 직책만 데싸이고, 사실상 PM의 역할을 수행하고 있다. 현업 실무자 분들과 커뮤니케이션하며 업무 효율화 향상을 위한 AI 시스템 개발, AI 문화 확산 등 흔히 말하는 AX(AI Transformation) 업무를 하고 있다. 생성형 AI가 업무 전반에 들어온 이후, 확실히 개발 작업의 속도는 빨라졌다. 코드를 짜는 시간, 문서를 정리하는 시간, 쿼리를 작성하는 시간. 체감할 수 있을 정도로 줄었다. 그런데 이상한 일이 벌어졌다. 하루가 끝나면 예전보다 훨씬 더 피곤했다. 어떤 날은 ..
포스팅 개요본 포스팅은 Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions라는 논문을 리뷰하는 포스팅입니다. 최근 AI 에이전트(AI Agent) 기술이 빠르게 발전하면서, 단순히 하나의 LLM이 질의응답을 수행하는 것을 넘어서 여러 에이전트가 협력하여 복잡한 작업을 수행하는 Multi-Agent LLM 시스템이 주목받고 있습니다.LangGraph, AutoGen, CrewAI와 같은 프레임워크의 등장으로 이러한 다중 에이전트 시스템의 배포가 급격히 가속화되었는데요. 이러한 시스템들은 코드 생성, 연구 종합, 기업 자동화 등 다양한 영역에서 인상적인 성능을 보여주고 있습니다...
포스팅 개요본 포스팅은 Carnegie Mellon University 연구진이 발표한 "Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks" 논문을 리뷰하는 포스팅입니다. 최근 AI 코딩 도구의 발전으로 바이브 코딩(Vibe Coding)이라는 새로운 프로그래밍 패러다임이 등장했는데요. 개발자가 자연어로 요청하면 LLM 에이전트가 복잡한 코딩 작업을 수행하는 방식입니다.Cursor, Claude Code와 같은 AI 기반 개발 도구들이 급격히 인기를 얻으면서, 설문조사에 따르면 개발자의 75%가 바이브 코딩을 사용하고 있으며 그 중 90%가 만족한다고 응답했습니다. 심지어 Anthropic ..
포스팅 개요본 포스팅은 Amazon AGI 팀에서 2025년 8월 발표한 "Improving Document Retrieval Coherence for Semantically Equivalent Queries" 논문을 리뷰하는 포스팅입니다. 최근 LLM 기반의 RAG(Retrieval-Augmented Generation) 시스템 구축이 필수적인 기술로 자리 잡으면서, 근거 문서를 찾아오는 Dense Retriever(검색 모델)의 역할이 중요해졌습니다.하지만 현업에서 RAG를 개발하다 보면 마주치는 고질적인 문제가 있습니다. 바로 "같은 의도의 질문인데, 단어나 어순을 살짝만 바꿔도 검색 결과가 완전히 달라지는 현상(Sensitivity)"입니다. 본 논문은 이러한 검색 모델의 비일관성(Incohere..
포스팅 개요본 포스팅은 최근 RAG(Retrieval-Augmented Generation)의 한계를 극복하기 위해 제안된 CRAG(Corrective Retrieval Augmented Generation)라는 논문을 리뷰하는 포스팅입니다.LLM(Large Language Model)이 환각(Hallucination) 현상을 겪는다는 것은 이제 널리 알려진 사실입니다. 이를 해결하기 위해 외부 지식을 검색해 오는 RAG 기술이 필수적으로 사용되고 있죠. 하지만, 만약 "검색해 온 문서 자체가 틀렸거나 관련이 없다면" 어떻게 될까요? 기존 RAG는 검색된 문서를 맹목적으로 신뢰하다 보니, 잘못된 정보를 바탕으로 더 그럴듯한 거짓말을 만들어내곤 합니다. CRAG는 바로 이 지점에서 출발합니다. 검색된 문서..
포스팅 개요최근 AI 챗봇과 대화를 나누거나 긴 리포트를 요약시킬 때, "입력 가능한 글자 수를 초과했습니다"라는 메시지를 본 적 있으신가요? 현대의 대형 언어 모델(LLM)은 놀라운 성능을 보여주지만, 치명적인 약점을 안고 있습니다. 바로 '긴 텍스트'를 다루는 비용입니다.이는 LLM의 핵심 엔진인 '어텐션 메커니즘'이 입력된 텍스트의 길이가 길어질수록 계산량이 길이의 '제곱($O(n^2)$)'으로 폭증하는 근본적인 한계 때문입니다. 텍스트 1,000자를 처리하는 데 1초가 걸렸다면, 2,000자를 처리하는 데는 4초, 4,000자를 처리하는 데는 16초가 걸리는 식이죠. 이 때문에 수백만 자에 달하는 방대한 문서를 한 번에 처리하는 것은 사실상 불가능했습니다. 그런데 만약, 이를 피할 수 있는 기발한..
포스팅 개요본 포스팅은 거대 언어 모델(LLM)의 예측 불가능한 '성격(특징) 변화'라는 중대한 안전성 문제를 해결하기 위한 새로운 프레임워크를 제시한 논문, "Persona vectors: Monitoring and controlling character traits in language models"를 리뷰합니다. 본 논문은 Anthropic과 UT Austin 등 유수 기관의 공동 연구로, LLM 내부에서 '악의(evil)', '아첨(sycophancy)'과 같은 추상적인 성격(특징) 특성이 어떻게 표현되는지를 '페르소나 벡터(Persona Vector)'라는 개념을 통해 정량적으로 분석하고 제어하는 방법을 제안합니다. 특히, 파인튜닝 과정에서 발생하는 의도치 않은 성격 변질, 즉 '창발적 비정렬(..
포스팅 개요본 포스팅은 LLM(대규모 언어 모델)의 성능을 근본적으로 결정하는 '컨텍스트(Context)'를 체계적으로 설계하고 최적화하는 방법을 다룬 논문인 "A Survey of Context Engineering for Large Language Models"를 리뷰하는 포스팅입니다. 본 논문은 중국 과학원 컴퓨팅 기술 연구소(Institute of Computing Technology, Chinese Academy of Sciences)를 중심으로 칭화대, 베이징대 등 여러 유수 기관의 연구진들이 공동으로 작성했습니다. 본 논문은 RAG, 프롬프트 엔지니어링, 메모리 시스템 등 파편화되어 있던 LLM의 컨텍스트 관련 기술들을 '컨텍스트 엔지니어링(Context Engineering)'이라는 하나의..
포스팅 개요본 포스팅은 Agent4Edu라는 논문을 리뷰하는 포스팅입니다. 최근 AI 기술의 발전은 단순한 질의응답을 넘어, 보다 능동적이고 지속적인 상호작용(interaction)이 가능한 AI 에이전트(Agent)로 진화하고 있습니다.생성형 AI(Generative AI)가 등장하면서, ChatGPT와 같은 대형 언어 모델(Large Language Model, LLM)이 다양한 영역에서 활동하고 있는데요. 이제는 단순한 텍스트 생성을 넘어서 AI가 사용자의 행동을 분석하고, 학습 패턴을 이해하며, 능동적으로 문제를 해결하도록 설계된 AI Agent 기반 시스템이 주목 받고 있습니다. Agent4Edu는 이러한 AI 에이전트를 교육(Education) 도메인에 적용하여, 학습자를 지원하는 방법을 제안..
포스팅 개요 이번 포스팅은 자연어처리(NLP) 논문 중 A Robustly Optimized BERT Pretraining Approach라는 논문을 리뷰하는 포스팅입니다. 해당 자연어처리 논문은 흔히 RoBERTa라고 많이 언급되는 논문인데요. 앞서 GPT-1, GPT-2, BERT 논문 리뷰에 이어서 자연어처리 논문 시리즈 네 번째 포스팅입니다. 추가로 해당 포스팅의 내용은 제가 진행하는 사내 자연어 처리 스터디에서 발표한 자료를 블로그로 정리한 자료임을 알려드립니다. 자연어 처리 논문 리뷰는 아래와 같은 순서로 할 예정이며 이번 포스팅은 그 네 번째 RoBERTa 논문입니다. (순서는 바뀔 수 있습니다.) GPT-1 (https://lsjsj92.tistory.com/617) BERT (https:..