꿈 많은 사람의 이야기

세로형

Notice

[contact] 컨택 정보 공지

Recent Posts

Recent Comments

Link

03-16 04:50

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

꿈 많은 사람의 이야기

RAG 검색 품질의 핵심 '일관성(Coherence)' 높이기: Amazon AGI 연구 논문 리뷰 본문

인공지능(AI)/LLM&RAG

RAG 검색 품질의 핵심 '일관성(Coherence)' 높이기: Amazon AGI 연구 논문 리뷰

이수진의 블로그 2025. 11. 30. 20:58

728x170

포스팅 개요

본 포스팅은 Amazon AGI 팀에서 2025년 8월 발표한 "Improving Document Retrieval Coherence for Semantically Equivalent Queries" 논문을 리뷰하는 포스팅입니다. 최근 LLM 기반의 RAG(Retrieval-Augmented Generation) 시스템 구축이 필수적인 기술로 자리 잡으면서, 근거 문서를 찾아오는 Dense Retriever(검색 모델)의 역할이 중요해졌습니다.

하지만 현업에서 RAG를 개발하다 보면 마주치는 고질적인 문제가 있습니다. 바로 "같은 의도의 질문인데, 단어나 어순을 살짝만 바꿔도 검색 결과가 완전히 달라지는 현상(Sensitivity)"입니다.

본 논문은 이러한 검색 모델의 비일관성(Incoherence) 문제를 해결하기 위해, 별도의 외부 모델 없이 학습 손실 함수를 수정하는 것만으로 성능을 개선하는 Coherence Ranking (CR) Loss를 제안합니다. 특히 쿼리 재작성(Query Rewriting)이 야기하는 Latency 문제를 해결하고, 단순 데이터 증강(Data Augmentation)의 한계를 넘어선 방법론을 제시한다는 점에서 매우 실용적인 연구입니다.

본 논문의 공개된 arXiv 링크는 아래와 같으며, 본 포스팅은 해당 논문을 기반으로 작성되었습니다.

https://arxiv.org/abs/2508.07975

포스팅 본문

본 포스팅에서는 논문의 흐름을 따라가되, 우리가 RAG 시스템을 구축하며 겪는 실제적인 문제와 연결하여 내용을 분석해보겠습니다.

[1]. Introduction: 왜 '일관성(Coherence)'인가?

기존의 Dense Retrieval(DR) 연구들은 대부분 '정답 문서를 상위에 올리는 것(Relevance)'에만 집중했습니다. NDCG나 MRR 같은 지표를 0.1이라도 올리는 것이 지상 과제였죠. 하지만 저자들은 여기서 간과된 문제를 지적합니다.

바로 "질의 민감도(Query Sensitivity)"입니다.

상황: 사용자가 "이순신 장군 사망일"을 검색했다가 결과가 별로라 "충무공 전사한 날짜"로 다시 검색합니다.
문제: 사람은 같은 질문이라 생각하지만, 모델은 전혀 다른 벡터로 인식해 엉뚱한 문서를 가져옵니다.
결과: RAG 시스템의 답변 품질이 질문의 미세한 표현 차이에 따라 출렁거리게 됩니다.

논문은 이를 "Coherence(일관성)"의 문제로 정의합니다. 의미적으로 동등한 질문(Semantically Equivalent Queries)이라면, 모델이 반환하는 문서 리스트도 일관성 있어야 한다는 것이죠. 일관성이 높은 모델일수록 일반화 성능이 좋고, 사용자 경험(UX)도 개선됩니다.

[2]. 기존 해결책의 한계점

물론 이 문제를 해결하려는 시도가 없었던 것은 아닙니다. 하지만 저자들은 기존 방식들이 '근본적인 해결책'이 되지 못한다고 지적합니다.

2-1. 쿼리 재작성 (Query Rewriting)의 Latency 문제

가장 흔한 방법은 검색 전에 LLM을 두어 사용자의 질문을 깔끔하게 다시 쓰는 것입니다. 효과는 확실하지만 치명적인 단점이 있습니다. 바로 Latency(지연 시간)와 비용입니다. 모든 검색 요청마다 LLM을 거쳐야 하니 시스템이 무거워질 수밖에 없습니다. 실시간성이 중요한 서비스에서는 도입하기 부담스러운 방식이죠.

2-2. 데이터 증강 (Data Augmentation)의 불확실성

학습 단계에서 다양한 변형 질문(Paraphrase)을 많이 보여주면 어떨까요? 추론 시 Latency는 없지만, 논문은 이를 "Mixed Blessing(양날의 검)"이라고 표현합니다. 단순히 데이터만 늘리는 것은 모델이 데이터 분포를 외우게 할 뿐, 랭킹의 구조적 일관성을 보장하지 못합니다. 실험 결과 일부 데이터셋(MS-MARCO)에서는 오히려 정확도가 떨어지는 현상도 발생했습니다.

핵심 목표: 외부 모델(LLM) 없이, 데이터만 늘리는 것도 아닌, 손실 함수(Loss Function) 자체를 수정하여 모델이 스스로 '의미적 불변성'을 깨우치게 하자!

[3]. 제안 방법론: Coherence Ranking (CR) Loss

연구진은 기존의 Multi-Negative Ranking (MNR) Loss에 두 가지 핵심 제약 조건을 추가한 CR Loss를 제안합니다. 이 부분이 논문의 핵심 주장입니다.

[3-1]. Query Embedding Alignment (QEA): 벡터 응집력 강화

첫 번째는 "같은 뜻이면 같은 곳에 모여라"입니다. 의미적으로 동등한 질문 \(q\)와 \(q_i\)가 있다면, 이들의 임베딩 벡터 간의 거리(MSE)를 최소화합니다. 모델이 단어 선택 같은 표면적 노이즈를 무시하고, 질문의 핵심 의도(Semantic Core)에 집중하도록 강제하는 것입니다.

[3-2]. Similarity Margin Consistency (SMC): 랭킹 구조 동기화

두 번째가 더 중요합니다. 벡터 위치만 맞추는 것으로는 부족합니다. "문서를 바라보는 관점(점수 차이)"을 맞춰야 합니다.

질문 \(q\)가 정답 문서 \(d^+\)와 오답 문서 \(d^-\) 사이에서 느끼는 점수 차이(Margin)를 \(M\)이라고 합시다. 그렇다면 동등한 질문 \(q_i\)도 똑같이 \(M\)만큼의 점수 차이를 느껴야 합니다.

의미: "질문 형태가 바뀌어도, 정답과 오답을 가르는 변별력의 크기는 유지되어야 한다."
효과: 이 제약 덕분에 질문이 조금 바뀌어도 랭킹 순서가 뒤집히지 않고 견고하게 유지됩니다.

[4]. Experiment: 실험 결과와 인사이트

연구진은 Phi-3 모델을 사용해 MS-MARCO와 Natural Questions(NQ) 데이터셋의 질문들을 10가지 스타일로 변형(Paraphrasing)하여 학습 데이터를 구축했습니다. 그리고 MPNet, ModernBERT 등을 통해 성능을 검증했습니다.

결과 1. 일관성(Coherence)의 압도적 향상

랭킹 유사도 지표인 RBO(Rank-Biased Overlap) 점수에서 극적인 향상이 있었습니다. MS-MARCO에서는 기존 대비 +15%, NQ에서는 +29%나 일관성이 좋아졌습니다. 이는 사용자가 어떻게 질문을 던지든 모델이 "흔들리지 않는 편안함"을 제공한다는 뜻입니다.

결과 2. 정확도(Relevance)와의 시너지

보통 모델에 제약을 걸면 성능이 떨어지는 Trade-off가 발생하기 쉽습니다. 하지만 CR Loss는 정확도(NDCG@10)까지 소폭 상승시켰습니다. "일관성 있는 모델이 정답도 잘 찾는다"는 가설이 입증된 것입니다. 단순 데이터 증강이 일부 데이터셋에서 성능 저하를 보인 것과 대조적입니다.

결과 3. '복잡한 쿼리'에서의 진가

상위 문서들의 점수 차이가 0.1 미만으로 촘촘해서, 랭킹이 뒤집히기 쉬운 '난이도 높은 쿼리' 상황에서 CR 모델은 기존 대비 138% 향상된 일관성을 보였습니다. 모델이 헷갈리기 쉬운 상황에서 더욱 빛을 발한다는 점이 인상적입니다.

결과 4. Re-ranking Opportunity의 확대 (실무적 가치)

마지막으로 실무자들에게 가장 중요한 지표입니다. 보통 DR 뒤에 Re-ranker를 붙여 쓰는데, DR이 일단 후보군(Top-k)에 정답을 포함시켜야 Re-ranker가 힘을 쓸 수 있습니다.

실험 결과, CR Loss를 적용했을 때 Re-ranker가 선택할 '최고의 문서'를 DR이 놓치지 않고 후보군에 올려줄 확률이 약 10%p 증가했습니다. 이는 RAG 파이프라인 전체의 안정성을 크게 높여주는 결과입니다.

마무리 및 요약

이번 포스팅에서는 Amazon AGI 팀에서 2025년 8월 발표한 "Improving Document Retrieval Coherence for Semantically Equivalent Queries" 논문을 리뷰해 보았습니다.

RAG 시스템의 품질을 고민하는 엔지니어라면, 우리 모델이 "같은 질문에 같은 대답을 하고 있는지" 점검해보는 계기가 되시길 바랍니다.

긴 글 읽어주셔서 감사합니다.

그리드형

저작자표시 동일조건 (새창열림)

'인공지능(AI) > LLM&RAG' 카테고리의 다른 글

CRAG: RAG의 검색 실패와 환각(Hallucination)을 해결하는 Corrective RAG 논문 리뷰 (1)	2025.11.23
윈도우(windows)에서 PostgreSQL pgvector 설치 및 사용하기 (1)	2025.11.19
업스테이지 문서 파싱(Document parsing) playground 서비스 개발기( 코드 공유 ) (1)	2025.10.15
ChatGPT GPT-5 프롬프트 가이드 정리 및 프롬프트 템플릿 예제(example) 공유 (0)	2025.10.12
AI 기반의 개인화된 교육과 맞춤형 학습 경험(Google: Towards an AI-Augmented Textbook) (1)	2025.10.07

공유하기 링크

페이스북
카카오스토리
트위터

'인공지능(AI)/LLM&RAG' Related Articles

Comments

꿈 많은 사람의 이야기

RAG 검색 품질의 핵심 '일관성(Coherence)' 높이기: Amazon AGI 연구 논문 리뷰 본문

RAG 검색 품질의 핵심 '일관성(Coherence)' 높이기: Amazon AGI 연구 논문 리뷰

포스팅 개요

포스팅 본문

[1]. Introduction: 왜 '일관성(Coherence)'인가?

[2]. 기존 해결책의 한계점

2-1. 쿼리 재작성 (Query Rewriting)의 Latency 문제

2-2. 데이터 증강 (Data Augmentation)의 불확실성

[3]. 제안 방법론: Coherence Ranking (CR) Loss

[3-1]. Query Embedding Alignment (QEA): 벡터 응집력 강화

[3-2]. Similarity Margin Consistency (SMC): 랭킹 구조 동기화

[4]. Experiment: 실험 결과와 인사이트

결과 1. 일관성(Coherence)의 압도적 향상

결과 2. 정확도(Relevance)와의 시너지

결과 3. '복잡한 쿼리'에서의 진가

결과 4. Re-ranking Opportunity의 확대 (실무적 가치)

마무리 및 요약

'인공지능(AI) > LLM&RAG' 카테고리의 다른 글

티스토리툴바