포스팅 개요
본 포스팅은 Agent4Edu라는 논문을 리뷰하는 포스팅입니다. 최근 AI 기술의 발전은 단순한 질의응답을 넘어, 보다 능동적이고 지속적인 상호작용(interaction)이 가능한 AI 에이전트(Agent)로 진화하고 있습니다.
생성형 AI(Generative AI)가 등장하면서, ChatGPT와 같은 대형 언어 모델(Large Language Model, LLM)이 다양한 영역에서 활동하고 있는데요. 이제는 단순한 텍스트 생성을 넘어서 AI가 사용자의 행동을 분석하고, 학습 패턴을 이해하며, 능동적으로 문제를 해결하도록 설계된 AI Agent 기반 시스템이 주목 받고 있습니다.
Agent4Edu는 이러한 AI 에이전트를 교육(Education) 도메인에 적용하여, 학습자를 지원하는 방법을 제안합니다. LLM을 기반으로 학습자의 사고 과정과 학습 패턴을 분석하고, 이를 바탕으로 맞춤형 학습 경험, 개인화 된(Personalized) 맞춤형 교육 경험을 제공하는 AI 에이전트(Agent) 시스템을 설계하는 방법을 제안합니다.
본 논문의 공개된 arxiv 링크는 아래와 같으며 본 포스팅은 아래 링크의 논문을 참고해서 작성한 리뷰 포스팅입니다.
포스팅 본문
포스팅 개요에서도 언급하였듯, 이제 AI는 사용자와 능동적으로 상호작용할 수 있는 AI Agent로 확장되고 있습니다. 본 포스팅은 그 중 교육(Education) 영역에서 개인화된 학습 경험, 맞춤형 학습을 제공하는 Agent4Edu 논문을 리뷰하는 포스팅입니다.
본 포스팅은 논문에 작성되어진 순서를 따라갑니다. 먼저, Abstract부터 시작하여 Introduction, Agent4Edu 소개, 마지막 Experiment(실험)까지 살펴보도록 하겠습니다.
[1]. Abstract
논문의 저자들은 abstract에서 개인 맞춤형 학습은 지능형 교육 시스템(intelligent educational system)내에서 학습자(learner)의 실습 실효성(practice efficiency)를 높이는 것을 목표로 하는데, 기존 오프라인 metric과 온라인 성과 간의 차이는 이러한 진척을 방해한다고 말합니다. 이에 저자들은 새로운 개인 맞춤형 학습 시뮬레이터(personalized learning simulator) Agnet4Edu를 소개합니다. Agent4Edu는 학습자 프로필(learner profile), 메모리 모듈(memory module) 및 개인 학습 알고리즘에 맞춘 액션 모듈(action module)을 장착한 대규모 언어 모델(Large Language Model, LLM) 기반 생성 에이전트(generative agent)를 특징으로 합니다.
이때, 학습자 프로필은 실제 응답 데이터를 사용해 초기화되고 연습 스타일과 인지 요소(cognitive factors)를 캡처한다고 합니다. 메모리 모듈은 심리학 이론에서 영감을 받아 practice fact와 고수준 요약(high-level summary)을 기록하고 반성(reflection)을 함께 통합합니다. 마지막으로 액션 모듈은 문제에 대한 이해, 반응 생성(response generation), 분석 등 다양한 행동을 지원한다고 이야기 합니다.
이 모듈들에 대해서는 논문을 리뷰하며 보다 자세히 설명하도록 하겠습니다.
[2]. Introduction
저자들은 오늘날 교육 플랫폼에서는 학습자들이 직접 연습 문제를 선택하고 풀이하는 실습(Practice) 활동이 핵심적인 학습 방식으로 자리 잡고 있다고 말합니다. 그 대표적인 예로 코세라(Coursera), 칸 아카데미(Khan Academy), 리트코드(LeetCode)와 같은 플랫폼이 있죠. 그러나, 학습자들 개개인은 학습 속도, 선호하는 문제 유형, 문제 해결 방식 등이 다르기에 개인 맞춤형 학습인 개익화 학습(Personalized Learning)이 중요한 이슈로 떠오르고 있다고 합니다.
이러한 개인화 학습 시스템이 효과적으로 동작되려면, AI 모델이 실제 학습자들의 실습 데이터를 분석하고 학습할 수 있어야 하는데, 아무래도 현장 실제 교육 환경과 연구 환경에서는 차이(gap)이 존재하기 마련입니다. 예를 들어, 온라인에서 실시간으로 변화하는 학습자의 행동을 반영하지 못하는 데이터라던가 등이죠. 이로 인해, 오프라인 모델의 평가 지표와 실제 온라인 학습 성과 간의 불일치(discrepancy)가 발생하며 연구된 모델을 실제 현장에서 쓰기 어려운 측면이 있죠.
학습자의 반응 데이터를 시뮬레이션 하기 위해 시도했던 방법들이 있지만, 이러한 방법들은 다음과 같은 한계가 있습니다.
1) 단순화된 시뮬레이션(Simplified Simulations): 기존 연구들은 학습자 모델을 단순하게 설게하여, 학습자의 실제 문제 해결 과정을 충분히 반영하지 못하였습니다. 그렇기에 이러한 시뮬레이션은 신뢰성과 해석 가능성이 부족하죠.
2) 실제 응답 데이터에 대한 의존성(Dependency on Real Response Data): 이상적인 시뮬레이터는 실제 데이터가 부족하더라도 학습자의 응답을 시뮬레이션 할 수 있어야 하는데, 현재 방법들은 그렇지 못합니다. 현재 방법들은 시뮬레이션 전략을 위해 고품질의 실제 데이터를 필요로 하기에, 기존 실제 데이터 셋과 유사한 응답 패턴 데이터만 생성할 수 있고 제로샷(zero-shot)과 같은 어려운 시나리오에 일반화 하는 데 어려움을 겪습니다.
이러한 문제를 해결하기 위해 최근 LLM의 발전이 주목을 받고 있습니다. 이전 연구인 Smallville 프로젝트에서는 AI가 가상의 마을을 구성해 어떻게 상호작용하는지 실험이 진행되었었는데요. 이러한 실험들은 AI가 단순히 패턴 매칭을 넘어, 사고하고 행동을 모방할 수 있는 가능성을 보여준 것이죠. 또한, in-context learning 능력을 가진 LLM은 실제 데이터에 대한 의존도를 최소화하면서 zero-shot과 같은 시뮬레이션을 수행할 수 있습니다.
이러한 배경을 바탕으로 논문의 저자들은 Agent4Edu라는 개인화 학습 시뮬레이터(Personalized learning simulator)를 소개합니다. 이는 Figure 1과 같습니다. 이 방법은 지능형 교육 시스템(Intelligent educational system)을 위한 것으로 1) LLM 기반 생성형 에이전트(LLM-powered Generative Agent)와 개인 맞춤형 학습 환경(Personalized Learning Framework)의 두 가지 핵심 요소를 포함하고 있습니다.
또한, Agent4Edu는 세 가지의 주요 모듈로 구성되어 있는데요. 이 모듈은 교육을 위해 특별히 설계되었다고 합니다.
1. Learner Profile Module: 학습자의 practice style, 인지 요인(cognitive factor)를 저장해 학습자의 학습 상태에 맞춰 조정됩니다.
2. Memory Module: 심리 이론과 human learning mechanism에 영감을 받은 모듈이며, 과거의 practice experiences를 기록하고 reflection을 통해 학습 상태를 요약합니다.
3. Action Module: 개인화된 학습 알고리즘이 추천하는 연습 문제를 선택, 이해, 분석, 해결할 수 있도록 합니다.
[3]. LLM-Powered Agent(LLM 기반의 에이전트)
본 논문에서 3장부터 본격적인 Agent4Edu 내용을 소개합니다. 논문에서 소개한 Agent4Edu를 살펴보기 전에, 논문에서는 다양한 수식을 활용하는데요. 이를 먼저 정리하고 진행하려고 합니다. 본 논문에서는 아래와 같이 수식을 정의하고 있습니다.
- \(|U|\)는 학습자 (learners)를 의미하고 \(|E|\)는 문제(exercises)를 의미합니다.
- 학습자 \(u \in U\)는 시간 순서대로 정렬된 응답 데이터 \(l_u = {(e_1, c_{e_1}, y_{u,e_1}), (e_2, c_{e_2}, y_{u,e_2}), ..., (e_n, c_{e_n}, y_{u,e_n})}\)이 있으며 \(e_i \in E\)는 \(i\) 번째 step에서의 학습자 \(u\)의 exercise이고 \(y_{u, e_i}\)는 \(u\) 학습자가 \(e_i\)에 응답한 데이터로 정답이면 1, 오답이면 0으로 표시됩니다.
- 저자들은 \(c_e\)를 \(<Key, Value>\) 형태로 제공한다고 하며, 이는 Figure 1에 나와있는 것과 같다고 말합니다.
위에서 논문의 abstract와 introduction에서도 소개하였듯, 논문에서 제시한 Agent4Edu는 LLM을 기본 아키텍처(Foundational architecture)로 사용하고 있으며 profile, memory module, action module의 3개의 모듈을 활용해 개인 맞춤형 학습 시나리오에 맞추었습니다. 이제, 논문에서 제안한 각 모듈에 대해서 자세히 소개하겠습니다.
[3-1]. Learner Profile Module(학습자 프로포필 모듈)
이 모듈은 학습자의 전반적인 특성을 반영하며 학습자의 연습 패턴(Practice pattern)과 인지적 요소(Cognitive factor)를 분석해 초기 프로필을 생성합니다. 이때, 연습 스타일은 논문에서 명시적(explicit) 요소라고 칭하고 있으며, 인지적 요소는 암시적(Implicit) 요소라고 칭하고 있습니다. 그럼 각 요소는 어떤 특징을 가지고 있을까요?
[3-1-1]. Practice style
Practice style 요소는 학습 활동(learning activity), 성공률(success rate), 연습 다양성(pratice diversity), 선호도(perference)와 같은 각 학습자 \(u\)의 사용 가능한 기록 \(l_u\)에서 명시적으로 도출된 통계적 특징(statistical feature)입니다.
이때, 활동성은 학습 열정을 나타낼 수 있고 이는 연습 행동을 시뮬레이션하는 데 단서를 제공할 수 있습니다. 예를 들어, 학습에 대한 열의가 높은 학습자는 일반적으로 더 나은 성과를 거두는 것이죠. 본 논문에서는 수학적으로 학습자 \(u\)의 활동 수준을 \(P_{act}^u = \frac{|l_u|}{|E|}\)로 나타내었습니다.
학습 다양성은 학습자가 연습하는 지식 범위(Knowledge coverage)를 반영하며 \(P_{div}^u = \frac{|K_u|}{|K|}\)로 나타내었습니다. 이때, \(|K_u|\)는 학습자 \(u\)가 연습하는 지식 개념(Knowledge Concepts)의 수를 나타내며, 더 높은 다양성은 학습자에게 더 큰 호기심을 나타낸다고 볼 수 있습니다.
성공률은 학습자가 질문에 올바르게 대답할 확률과 상관관계가 있어, 또 다른 필수적인 특징이라고 볼 수 있습니다.
선호도는 학습자들이 가장 자주 연습하는 지식 개념을 의미합니다.
[3-1-2]. Cognitive Factor
인지적 요인은 심리학에서 연구된 implicit feature로 학습자의 practice performance에 중요한 역할을 미치는 요소입니다. 저자들은 Agent4Edu를 위해 문제 해결 능력(problem solving ability)과 지식 숙련도(knowledge proficiency)를 선택했다고 합니다. 문제 해결 능력은 학습 과정에서 안정적이라고 가정되며, 지식 숙련은 일반적으로 학습 진행에 따라 향상됩니다. 따라서, 프로필 모듈에서는 메모리 모듈에서 지식 숙련을 고려해 능력 계수 \(P\)만 구성한다고 합니다. 또한, 암묵적 능력을 얻기 위해서 IRT 모델을 에이전트 도구를 지정해 학습자 반응 기록을 바탕으로 응답 데이터에서 학습자 \(u\)의 능력 요소를 추론할 수 있도록 하였습니다.
[3-2]. Memory Module(기억 모듈)
기억 모듈(memory module)은 논문 3.2절의 내용에서 상당한 양을 차지하는 부분인데요. 메모리 모듈은 LLM 기반 에이전트가 학습자 \(u\)의 과거 practice 경험을 단계 별로 관찰하고 요약할 수 있도록 합니다. 이 모듈은 Factual Memory, Short-term memory, Long-term memory에 대한 내용이 담겨있고 그만큼 설명하는 양과 요소들이 많습니다. 이에, 하나씩 주된 요소별로 정리를 진행해보도록 하겠습니다.
[3-2-1]. Factual Memory(사실 기억)
시뮬레이션에서 Factual Memory는 실제 학습자의 과거 응답 기록으로 정의가 된다고 논문에서는 말하고 있습니다. 에이전트가 \(i\) 단계에서 \(u\)의 새로운 응답 기록을 얻으면, \(l_{u, i} = (e_i, c_{e_i}, y_{u, e_i})\) 응답 기록이 Factual Memory로 전송되어 처리됩니다. 여기서는 인간의 학습 매커니즘을 반영해 에이전트가 유사한 질문이나 지식을 반복적으로 수행하면 기억력이 강화됩니다. 따라서, 사용자 선호도 시뮬레이션에 성공적으로 사용된 방법을 적용하는데요. 각 레코드 \(l_{u, i}\)에 대해 additional counter(초기에는 1로 설정됨)을 도입해 강화된 횟수를 추적하게 됩니다. 이를 공식으로 표현하면 각 \(Agent_u\)에 대해 \(n\)개의 Factual Memory가 \(M_u = {l_{u,1}, l_{u,2}...l_{u,n}}\)이라고 가정하면 새로운 응답 기록 \(l_{u, n+1}\)을 수신할 수 있는 것이죠.
여기서 현재 메모리 \(M_u\)에서 \(l_{u, n+1}\)과 기존 Factual memory \(l_{u,i}\) 사이의 유사성을 계산하고 유사성이 있을 경우 두 기록은 유사하다고 간주됩니다. 그리고 \(l_{u,i}\)의 카운터를 1만큼 증가시키며, 이는 \(l_{u, n+1}\)에 의해 기억이 강화되었음을 의미한다고 저자들은 말합니다.
이렇게 Factual memory에서는 새로운 응답 기록을 처리하고 저장한 후에 이제 short-term memory와 long-term memory를 업데이트하도록 trigger한다고 합니다.
[3-2-2]. Short-term Memory(단기 기억)
에이전트의 가장 최근 관찰된 \(s\) 기록의 디테일한 정보를 유지하도록 합니다. \(Agent_u\)의 현재 Factual Memory가 \(M_u = {l_{u,1}, l_{u,2}...l_{u,n}}\)이라고 하면, 단기 기억 저장 장치는 \(M_{u,short} = {l_{u,n-s+1},...l_{u,n}}\)으로 정의됩니다.
[3-2-3]. Long-term Memory(장기 기억)
장기 기억은 반복적인 연습과 자기 성찰(self-reflection)에서 영감을 받아 인간의 장기 기억으로 강화된 기억을 통해 형성되는 과정을 뜻합니다. 이 기억은 넓은 수용 영역(wide receptive field)을 가지고 있어 오래 전에 관찰된 정보를 유지하는 등의 인사이트를 생성할 수 있죠.
저자들은 장기 기억에서 아래와 같은 3가지 정보를 사용해서 장기 기억을 설계하였습니다.
1) Reinforced Facts: 장기 기억을 업데이트 할 때마다 에이전트는 먼저 현재의 Factual memory \(M_u\)를 통과합니다. 레코드 \(l_{u,i}\)의 카운트 \(f_{u,i}\)가 미리 설정된 임계값 F를 초과하면 메모리가 F번 강화되었음을 나타내고, 이는 장기 메모리로 변환됩니다.
2) Learning Process Summary: Agent에 내장된 LLM을 활용하여 Memory Reflection을 통해 단기 및 장기 기억에서 Agent의 학습 상태를 요약합니다. 요약은 Practice process에 대한 언어적 설명(Linguistic description)과 에이전트 자체의 new insight로 구성됩니다. 저자들은 이를 통해 상당한 공간을 절약하고 운영 효율성을 향상시킬 수 있다고 말합니다.
3) Knowledge Proficiency: 학습자 반응 데이터를 기반으로 최적화된 DNeuralCDM을 도구로 활용해 각 연습 단계 후 특정 지식 개념(Knowledge concepts)에 대한 학습자의 동적 숙련도(dynamic proficiency)를 얻을 수 있다고 합니다. 지식 숙련도는 교육에 인간의 반응을 크게 반영하는 일종의 동적 인지 요소라고 저자들은 말합니다.
[3-2-4]. Forgotten(망각)
사람은 기억을 잊기 마련이죠. 저자들은 인간의 기억 붕괴가 빠르게 시작되다가 시간이 지남에 따라 점차 느려진다는 인간 망각 곡선 이론(human forgetting curve theory)에 따라 장기 기억의 각각 Factual memory가 잊혀질 수 있다고 말합니다. 장기 기억 \(M_u\)의 각 factual 기록에 대해 \(g(l_{u,i}\)가 미리 정해진 입계값을 초과하고 그 강화 빈도가 Factual memory에서 1로 리셋되면 잊혀진다고 합니다.
[3-2-5]. Memory Operation(메모리 조작 연산)
그리고 저자들은 AI Agent가 개인화된 학습 환경과 상호 작용할 수 있도록 세 가지 메모리 작업을 소개하는데요. 이는 아래와 같습니다.
1) Memory Retrieval: 장기 및 단기 기억을 검색해서 강화된 사실을 찾고 요약을 수행할 수 있도록 합니다. 즉, 에이전트가 메모리에서 관련 정보를 추출하는데 도움을 주는 역할을 수행합니다.
2) Memory Writing: raw한 관찰(observation)은 먼저 factual memory에 팩트로 기록되게 됩니다. 그런 다음, 최근 사실을 단기 기억에 저장하고 강화된 사실을 장기 기억에 기록하게 됩니다.
3) Memory Reflection: 장기 기억내에서 이루어지는 연산인데요. 먼저, 요약 반영(summary reflection)이 있습니다. 이는 단기 기억과 장기 기억을 기반으로 한 아이디어를 요약하기 위해 수행됩니다. 그 다음은 수정 반영(Corrective Reflection)이 있습니다. 에이전트의 행동이 실제 학습자와 일치하지 않을 때 수정 반영이 수정되며, 더 자세한 내용은 Action module에서 설명하겠습니다.
[3-3]. Action Module(행동 모듈)
Agent4Edu의 Action moodule은 학습자 프로필과 메모리 모듈을 장착하고 학습자가 문제를 푸는 과정에서 수행하는 다양한 인지적 행동을 시뮬레이션하는 역할을 수행합니다. 여기서는 크게 3가지 주요 액션 카테고리가 있습니다.
[3-3-1]. Cognitive-driven Actions(인지 기반 행동 결정)
Agent4Edu는 기존의 학습 모델들과 달리, 학습자의 인지적 요소(Cognitive Factor)를 기반으로 학습자의 행동을 결정할 수 있습니다. 시뮬레이션에서 개인화된 학습 알고리즘은 에이전트에게 하나의 excercise를 권장하게 되는데요. 이때 에이전트는 excercise가 학습자의 현재 인지적 요소에 적합한지 따라 수행 여부를 결정하게 됩니다. 만약, exercise 문제가 평가된 능력이나 지식 숙련도(knowledge proficiency)보다 어렵다면 에이전트는 이 문제를 거절할 수도 있습니다.
[3-3-2]. Reading & Understanding Exercises(문제 이해)
AI 에이전트는 학습자처럼 주어진 문제를 읽고, 문제를 테스트하는 지식 개념(knowledge concpet)을 식별해야합니다. 이를 통해, AI가 단순히 정답을 예측하는 것이 아니라, 문제의 맥락을 파악하고 어떤 개념이 적용되는지 이해하는 과정을 수행하는 것인데요. 에이전트가 문제의 개념을 식별하고, 올바르게 매칭할 경우 이는 인간 학습자(Human learner)가 문제를 이해하는 과정과 유사한 방식으로 동작한다는 것을 의미합니다.
만약, Agent가 잘못된 개념을 식별하거나 하면 수정 반성(corrective reflection)이 트리거되어 Agent가 올바른 지식 개념으로 안내하기 위해 올바르게 수정할 수 있도록 유도하게 됩니다.
[3-3-3]. Analyzing & Solving Exercises(문제 해결 및 분석)
AI 에이전트가 문제를 해결하는 방법을 모방하는 과정입니다. 이전 시뮬레이션 방법들이 정답과 정확성 측면에서 학습자의 반응을 직접 예측하는 것과 다르게 논문에서 제안한 방법은 학습자의 답변 과정을 모방하므로 신뢰성(credibility)과 해석 가능성(interpretability)을 모두 향상시킬 수 있다고 합니다.
이때, 저자들은 복잡한 답변 과정을 효과적으로 시뮬레이션 하기 위해 CoT(Chain-of-Thought) 방법을 활용했다고 합니다.
초기에는 에이전트가 프로필과 메모리를 결합해 연습 문제에 대한 초기 해결 아이디어를 공식화하는데요. 그 다음 문제에 대한 최종 답변을 작성하게 되고 이게 정답인지 아닌지 예측합니다. 만약, 일치하지 않으면 수정 반영(corrective reflection)이 트리거 됩니다.
즉, 여기서는 AI가 정답을 맞히는 것만 중요하는 게 보는 것이 아닌, 어떤 방식으로 풀었는지, 학습자의 사고 과정과 유사하게 문제 해결을 수행하였는지를 보는 것입니다.
[이쯤에서 잠깐!]. 그래서 도대체 어떻게 사용자와 상호작용 되는 것일까?
자, 이쯤에서 한 번 짚고 넘어가야 할 것 같습니다. 아, 그래서 저렇게 많은 모듈과 다양한 방법들이 소개 되었는데, 뭐 어떻게 되는 것인가?
이 부분이 저는 논문을 보면서 정말 많이 헷갈렸습니다. 개인화 학습을 도와주고 교육을 도와주는 AI Agent이라는 것은 알겠는데, 그래서 이 수많은 기능들이 서로 어떻게 유기적으로 연결되어 동작이 되는 것일까? 라는 궁금증이 생겼습니다. 그래서 개인적으로 정리를 해봤는데요. 아래는 제가 이해한 하나의 예시입니다. 저자가 이해한 것으로 작성된 것이니, 혹 틀렸다면 피드백 부탁드립니다!
[전체 동작 흐름]
1. Leaner Profile Module에서 학습자의 특성(연습 스타일, 성공률, 인지적 요소 등)을 분석해 프로필로 구성
2. Memory Module에서 학습자의 과거 학습 데이터를 기반으로 기억을 불러오고 업데이트
3. Action Module에서 학습자가 문제를 풀지 여부를 결정하고, 문제 해결 과정을 수행
4. 학습자의 응답을 평가해 새로운 학습 데이터를 구성하고 Memory Module을 업데이트
5. 학습자가 수행한 학습 데이터가 Learner Profile Module에도 영항을 주어 업데이트 됨
[예시]
- 사용자 이름: 이수진이라는 학생이 있다고 가정함
- 상황: 이수진은 현재 선형대수를 공부중이고, 행렬의 고유값을 구하는 문제를 풀려고 함
- 배경: 이수진은 과거에 선형대수를 몇 번 시도했지만, 숙련도가 낮아 어려움을 겪고 있음
1. Learner Profile Module에서 학습자(이수진)을 분석
- Agent4Edu는 학습자 이수진의 기존 학습 데이터르 기반으로 초기 프로필을 생성함
- 연습 스타일(Practice Style): 연습 횟수가 적다, 성공률(Success rate): 선형대수 문제에서 성공률이 35%이다(낮다), 선호도(Preference): 선형대수 문제보다는 확률 문제를 더 많이 연습하더라
- 문제 해결 능력(Problem-Solving Ability): 수학적 사고 능력은 중급 수준이고, 개념 숙련도(Knowledge Proficiency): 행렬 개념 숙련도가 부족하더라라고 데이터 구성
- 이런 상황을 기반으로 Memory module과 공유되어 문제 난이도를 조정 해야함
2. Memory Module
- Factual Memory에서 이수진이 과거 3번의 행렬 문제를 풀었는데, 정답을 맞춘 적이 1번 정도라는 것을 탐지
- 단기 기억(Short-Memory)에서 최근 5개 문제 중 선형대수 문제는 없다는 것을 파악
- 장기 기억(Long-term Memory)에서 강화된 기억(Reinforced Fact)는 확률론 개념은 강하게 유지된다는 것을 체크하고, 학습 과정 요약(Learning Process Summary)에서 이수진은 선형대수 문제 풀이에서 연산 실수를 자주한다는 것을 인지. 또한, 지식 숙련도 추적(Knowledge Proficiency)에서 행렬 문제를 3개월 전에 풀었고, 이후 학습 기록이 없으므로 숙련도가 하락되었다고 파악하고 기억 검색(Memory Retrieval)에서 과거 유사한 행렬 문제를 불러올 가능성이 높다는 것을 인지
- Action Module과 공유되어 지난 번 실수한 부분을 고려해 난이도를 낮출 수 있음
3. Action module
- 이수진은 문제를 풀 지 결정을 함. 이때 Agent는 메모리 모듈을 참조한 결과, 과거에 어려움을 겪었던 개념이라서 Agent4Edu가 난이도를 낮춘 문제를 추천할 가능성이 있음. 어쨌든 이수진은 이걸 풀기로 함. 이 과정이 Coginitive-driven Actions라고 볼 수 있음
- 이수진이 어떤 문제를 읽고 이해를 하기 시작함. 이때, Agent는 문제의 핵심 개념이 선형대수인지 정확히 매칭하는지 분석하고 문제 개념을 잘못 매칭할 경우 수정 반성(Corrective Reflection) 수행 --> 즉, Agent가 스스로 개념 매칭을 검토하고 오류를 발생시켰을 경우 이를 수정하는 과정을 거치게 됨. 다시 올바른 개념을 학습할 수 있도록 셀프 피드백
- Agent는 Chaint-of-Thought를 사용해서 이수진의 문제 풀이 과정을 시뮬레이션하기 시작함. 이때, Agent가 푼 정답과 이수진이 푼 정답이 틀렸다면 수정 반성(Corrective Reflection)이 적용하고 이수진에게 실수한 부분을 분석해 피드백을 제공함
4. 학습 기록 업데이트 및 학습 패턴 반영
- 학습 결과를 Memory Module과 Learner Profile Module에 반영
- Factual Memory에는 새로운 응답 데이터를 저장하고, Long-term memory 등에는 행렬 문제 풀이 데이터를 업데이트 함. 또한, Learning process summary에는 "실수를 줄이기 위한 추가 학습 필요" 등의 요약 정보를 추가함
- 또한, 성공률에 대한 업데이트, 지식 숙련도도 업데이트 됨
[4]. Experiment (실험 및 실험 결과)
이제 논문에 마지막 부분 실험입니다. 실험은 핵심적인 것만 정리하고 마무리 하도록 하겠습니다.
논문의 실험 환경은 아래와 같이 구성됩니다.
- 데이터셋: EduDataset을 활용하며 수학 및 물리 과목으로 구성되어 있음. 이때 ExerciseID, Accuracy, Knowledge concepts 등이 존재함
- 실험 설정: GPT-3.5-Turbo와 GPT-4를 사용하여 Agent를 구성하였음. 비용 문제로 GPT-4 설정에서 100명의 학습자만의 작업 기록을 시뮬레이션 하였으며, 3.5-Turbo로 했을 때는 모든 응답 데이터를 활용. Temperature는 0, 단기 메모리 크기는 5, 메모리 향상 입계값 F는 5, 장기 메모리에서 망각(Forgetting) 값은 0.99로 설정
- 실제 응답을 거의 모방하는 시뮬레이션 학습자 응답 데이터를 생성하는 것을 목표. DAISIM과 KES를 포함한 전통적인 시뮬레이션 방법과 비교
- 학습자의 기록은 90%를 훈련 셋트로 구성하고 10%를 테스트로 분리. 에이전트는 훈련 데이터에 접근해 프로필을 생성하고 reflection을 통해 메모리를 업데이트 할 수 있음. 테스트에서는 못봤던 문제에 대해 학습자의 이진 응답을 예측
- 정확도와 F1-score를 사용해 예측 정확도를 측정하고 ROUGE-3를 사용해 시뮬레이션 데이터와 실제 데이터 분포 간의 유사성을 판단
Table 1은 저자들이 공개한 평가 결과입니다. Agen4Edu가 좋은 성능을 보여주고 있는 것을 확인할 수 있습니다. 특히, GPT-3.5-turbo가 가장 좋은 성능을 보여주고 있는 것을 볼 수 있습니다. 이는 LLM 기반 AI Agent가 실제 데이터 셋과 매우 유사한 학습자 반응 데이터를 생성할 수 있는 잠재력을 가지고 있는 것이라고 저자들은 말합니다. 또한, 100명의 학습자를 대상으로 테스트를 한 것을 봐도 우수한 성능이 나왔고 특히 GPT-4가 이때 더 나은 성능을 보여주었습니다.
또한, 에이전트의 연습 성공률의 시뮬레이션 분포가 학습자 데이터의 실제 분포와 매칭이 되는지 평가를 하는데요. 이에 대한 실험 결과는 Figure 2의 (a)에 나와있습니다. 실제 값과 에이전트의 결과를 비교한 결과, 시뮬레이션 데이터가 성공률과 관련된 학습자의 연습 패턴을 효과적으로 포착했다고 저자들은 말합니다.
그리고 Agent4Edu가 사전 학습 데이터 없어도 즉, Zero-shot인 상황에서도 학습자의 응답을 얼마나 잘 시뮬레이션할 수 있는지도 검토했습니다. 이러한 상황은 콜드 스타트 상황이죠. 이때 AI가 얼마나 효과적으로 응답을 생성할 수 있는지 검증합니다. 그 결과는 Figure 2의 (b)에 나와있습니다. 이때 Agent4Edu win은 AI의 응답이 사람과 비교했을 때 AI가 이긴 경우, Tie는 그 영역을 구분하기 어려운 경우, Lose는 인간이 이긴 경우를 의미합니다. 이 결과에서 Agent의 결과가 실제 인간의 반응과 밀접하게 일치하여 둘을 구분하는 것이 어렵다고 합니다. 하지만, 문제 풀이 영역(Answering) 성능은 그렇게 좋지 않았는데요. 복잡한 문제 해결(추론 능력)은 여전히 한계가 있다고 합니다.
Figure 2의 (c)는 Agent4Edu의 구성 요소를 제거했을 경우 학습 성능에 어떤 영향을 미치는지 분석한 것입니다. w/o prof라면 학습자 프로필을 제거한 경우, w/o mem은 메모리 모듈을 제거한 것 등이라고 볼 수 있습니다. 저자들은 실험 결과에서 기능을 제거해도 지식 예측(knowledge prediction)에는 큰 영향을 미치지 않다고 말합니다. 왜냐하면, 이미 LLM이 방대한 지식을 가지고 있기 때문이라고 말하네요. 하지만, 응답 예측(Response prediction)에서는 어느정도 영향이 있는 것으로 보이죠.
논문에는 더 자세한 실험들이 더 나와있습니다. 만약 실험에 대해 더 궁금하시다면 본 논문을 참고해주세요.
마무리
이번 포스팅은 AI 에이전트를 교육(Education) 도메인에 적용하여, 학습자를 지원하는 접근 방법을 제안한 Agent4Edu라는 논문을 리뷰하였습니다. LLM을 기반으로 학습자의 사고 과정과 학습 패턴을 분석하고, 이를 바탕으로 맞춤형 학습 경험, 개인화 된(Personalized) 맞춤형 교육 경험을 제공하는 AI 에이전트(Agent) 시스템을 설계하는 방법을 제안한 논문이었습니다.
비록 부족한 글이지만, AI와 교육 도메인이 어떻게 결합될 지 관심있으신 분들에게 도움이 되시길 바랍니다.
긴 글 읽어주셔서 감사합니다.
혹시라도 저에게 연락을 주시고 싶으시다면,
- Linkedin: https://www.linkedin.com/in/lsjsj92/
- 블로그 댓글 또는 방명록
으로 연락 남겨주시면 됩니다!