포스팅 개요
본 포스팅은 대규모 언어 모델(Large Language Model, LLM) 시대에서 데이터 사이언스(Data Science) 교육이 어떻게 변화되어야 하는지 다룬 논문 "What Should Data Science Education Do with Large Language Model?"을 리뷰하는 포스팅입니다. 워싱턴, 스탠포드, 팬실배니아, 럿거스 대학에서 공동으로 연구한 논문인데요. LLM 시대에서의 교육의 미래에 대한 연구를 진행한 논문입니다.
본 포스팅에서 리뷰한 논문은 아래 링크에서 확인하실 수 있습니다.
포스팅 본문
본 포스팅에서 소개하는 논문은 What Should Data Science Education Do with LLM?입니다. 거대 언어 모델(Large Language Model, LLM) 시대에 데이터 사이언스(Data Science) 교육이 어떻게 변화되어야 하는지, 변하고 있는지 등 교육의 미래에 대해서 연구한 논문입니다.
본 포스팅에서는 다음과 같은 순서대로 논문 리뷰를 진행하고자 합니다.
1. 논문 핵심 요약
2. 논문 본문 리뷰
논문 핵심 요약
- 논문의 저자들은 LLM의 발전으로 다양한 업계에서 전환이 일어나고 있는데, 그 중 Data Science 분야 교육에 대한 전환(Transition)을 이야기합니다.
- 저자들은 LLM 발전이 데이터 사이언스 교육에서 의미 있는 전환을 필요로 한다고 말하면서, LLM에 기반한 창의성(creativity), 비판적 사고(critical thinking), 인공지능 기반 가이드 프로그래밍(AI-guided programming) 등의 능력을 키워야 한다고 주장합니다.
- 저자들은 LLM은 복잡한 프로세스를 자동화하는 등의 역할 전환을 촉진하면서 Data Science 파이프라인뿐만 아니라 데이터 사이언스 교육의 기본적인 성격을 재정의할 수 있을 것이라고 말하며, 이러한 대규모 언어 모델(Large Language Model) 시대에 학생들은 SW 엔지니어가 아닌, 제품 관리자(product manager) 관점, 전략적 계획(strategic planing), 자원 관리 및 조정(coordinate resource), 제품 수명 주기(product life cycle) 관리에 초점을 맞추어야 한다고 합니다.
- 저자들은 이러한 인공지능 기술의 발전은 인간의 계획과 사고를 대체하는 것이 아닌, 인간의 지능과 창의성을 높이고 육성하는 데 활용될 수 있다고 합니다.
- 개인화된 교육 및 공평성이 반영된 교육을 제공할 수 있다고도 합니다.
- 다만, 섣부르게 교육에 접목하면 안 된다고도 합니다. 비판적 사고나, 자아 성찰(self-reflection) 등이 필요하며 표절 여부, 비윤리적 관행, 편향된 데이터, 오래된 정보(outdated) 등을 명확히 이해해야 할 것이라고 합니다.
논문 본문 리뷰
논문 리뷰는 Introduction부터 시작해 논문의 순서대로 리뷰를 진행합니다.
Introduction
저자들은 LLM(ChatGPT, Claude3, LLaMA, GPT4 등)의 등장은 데이터 과학분야에서 패러다임 변화(paradigm shift)를 가져왔고 데이터 사이언스 교육의 접근 방식을 변화시킬 가능성이 있다고 말하고 있습니다. LLM의 등장은 Data Science 교육의 내용(무엇을 가르칠 것인가/학습할 것인가)과 Data Science 교육의 방법(어떻게 가르칠 것인가/학습할 것인가) 모두의 변화를 요구하며 이 환경을 더 혁신적으로 변화시킨다고 합니다. 이에, 새로운 시대에 대규모 언어 모델(LLM)의 혁신적인 힘을 인식하고 적용하는 것은 학생과 교육자 모두에게 달려 있다고 주장하고 있습니다.
저자들은 또, LLM은 복잡한 프로세스를 자동화하고 코드를 생성하는 것등을 통해 역할 전환을 촉진함으로써 데이터 사이언스 파이프라인(Data Science Pipeline)뿐만 아니라 데이터 사이언스 교육의 기본적인 성격을 재정의(redefine)할 수 있는 잠재력을 가지고 있다고 말합니다. 이러한 새로운 LLM 시대에 학생들은 소프트웨어 엔지니어(software engineer)가 아닌 제품 관리자(product manager)로 간주하는 법을 배워야하며, 전략적 계획(strategic plainning), 리소스 조정(coordinating resource) 및 제품 수명 주기(product life cycle)을 감독하는 것으로 초점을 전환해야 한다고 합니다.
나아가, 창의성, 비판적 사고(critical thinking), LLM을 활용한 프로그래밍, 학제간 지식을 포괄하는 기술들을 활용해 데이터 사이언스 파이프라인의 다양한 단계를 개선하고 데이터 과학자(Data Scientist)의 역할 및 책임을 재정의하는데 있어 LLM 역할이 탐구될 것이라고 합니다.
The Impact on Data Science Education Content(데이터 사이언스 교육 콘텐츠에 미치는 영향)
저자들은 LLM은 복잡한 프로세스를 단순화하고 코드 생성을 자동화하며 데이터 과학자(Data Scientist)의 역할을 재정의 함으로써 data science 파이프라인에 혁명을 일으킬 수 있다고 합니다.
그러면서 LLM의 도움으로 데이터 과학자들은 질문 설계 및 프로젝트 관리와 같은 더 높은 수준의 작업으로 초점을 이동하여 제품 관리자와 유사한 역할로써 효과적으로 전환될 수 있다고 하는데요. 다음과 같은 스텝에 대해서 LLM이 데이터 사이언스 파이프라인의 다양한 단계를 상당히 간소화 할 수 있을 것이라고 이야기합니다.
- 데이터 클리닝(Data cleaning) : LLM은 raw data를 클리닝하고 전처리 및 변환하기 위한 코드를 자동으로 생성할 수 있어 data scientist들의 시간과 노력을 절감할 수 있을 것이라고 합니다.
- 데이터 탐색(Data exploration) : LLM은 데이터 패턴, 상관관계 및 이상치를 식별하고 탐색적 데이터 분석을 위한 코드를 생성할 수 있습니다.
- 모델 구축(Model building) : LLM은 문제를 기반으로 적절한 머신러닝 모델을 제안하고 훈련 및 평가까지 수행하는 코드를 작성할 수 있습니다.
- 모델 해석(Model interpretation) : LLM은 데이터 과학자가 구축한 모델의 복잡성을 이해하는데 도움을 줄 수 있고 모델 동작을 사람이 읽을 수 있는 형태의 용어로 설명할 수도 있습니다.
- 결과 제시(Presentation of results) : LLM은 시각적 보고서 및 요약을 생성해 데이터 사이언스 프로젝트의 결과를 효과적으로 전달할 수 있습니다.
이렇게 전통적인 데이터 사이언스 워크플로우(data science workflow)는 패러다임 전환(paradigm shift)을 눈앞에 두고 있다고 합니다. LLM은 데이터 과학자들의 역할과 특성을 변화시키고 있으며 데이터 과학 파이프라인에 LLM을 통합하여 일상적인 작업을 LLM에 위임하고 프로젝트 관리와 같은 더 높은 수준의 작업에 집중할 수 있다고 합니다.
Using Large Language Models in Data Science Education(데이터 사이언스 교육에서 대규모 언어 모델 사용하기)
그러면 어떻게 대규모 언어 모델(LLM)이 data science 교육에서 활용될 수 있을까요? 저자들은 LLM(Large Language Model)은 학생들의 학습 여정(learning jouney)를 돕는 강력한 학습 도구(teaching tool)와 맞춤형 튜터(customized tutor) 역할을 함으로써 영향을 줄 수 있다고 합니다. 또한, 2 sigma problem이라고 불리우는 개선으로 이어질 수 있다고 합니다.
Two sigma problem(2 sigma problem) : 1:1 튜터링을 받는 학생들이 일반 교실 학생들보다 좋은 성적을 얻을 수 있다는 연구 결과입니다. 아마 통계에 익숙하신 분들은 이거 통계 용어 아니야?라고 할 수 도 있겠습니다. 그리고 그 생각은 맞습니다. 이는 통계 용어이고, 개별 지도를 받는 학생들이 평균적으로 일반 교실 학습과 같이 단체 교육을 받는 학생들보다 2배 가량 더 높은 성적을 나타냈다고 할 수 있죠.
이러한 AI 리소스는 코딩 작에 대한 힌트 또는 안내를 제공할 수 있는 보죠 역할도 수행할 수 있고 이는 학생들의 프로그래밍 학습 경험을 크게 향상시킬 수 있을 것이라고 합니다. 또한, 향후 LLM이 더 넓은 영역에서 가상 교수 보조 역할(virtual teaching assistant)을 할 것이라 기대한다고 하면서 이러한 AI 기반 튜터는 학샐들의 질문에 응답하고 복잡한 개념을 명확히 하며 맞춤형 추천을 제공할 수 있다고 합니다.
무엇보다, LLM은 상호 작용적이고 참여형(engaging) 학습 환경을 조성하여 학생들이 도전을 극복하고 교육 목표를 달성하는데 도움을 줄 수 있다고 합니다. 무엇보다 개인화된 학습 경험을 더 쉽고 효율적으로 만들어서, 교육에 좋은 영향을 줄 수 있다고 하네요.
Adapting Teaching Methods in the New Area(새로운 영역에서의 적응형 교육 방법)
저자들은 LLM과 효과적으로 의사 소통하는 워크샵이나 튜토리얼을 제공하면 학생들이 LLM 프로그래밍에 대한 이해도를 높일 수 있다고 말합니다. 또한, 학생들이 실제 프로젝트를 통해서 LLM의 기능과 한계를 탐색하도록 권장하는 것도 유용하다고 하네요. 이러한 접근 방식은 개발 프로세스를 신속하게 진행할 수 있는 LLM의 잠재력을 보여주고 인간이 해야할 영역을 식별하도록 도와줄 수 있다고 합니다.
AI를 잘 사용하기 위해서는 표절적인 것들을 조심해야하는데요. 왜냐하면 LLM은 숙제나 시험을 다루는데 굉장히 뛰어난 성능을 보여주기 때문입니다. 그러나 이를 악용하면 LLM에 의해 촉진되는 부정행위와 표절이 계속해서 발생할 수 있습니다. 이를 위해서 비판적 사고, 개인화된 성찰(personalized reflection), AI 모델이 쉽게 재현할 수 없는 독특한 문제 해결 방법이 필요하도록 신중하게 설계되어야 한다고 저자들은 주장합니다.
예를 들어, 학생들이 수업에서 배운 내용을 요약하거나 직접 답변을 설명하도록 유도해 강의에 진정으로 참여할 수 있도록 할 수도 있고 또는 표절 검사 도구(plagiarism detection tool)을 구현하는 것도 좋은 방법이라고 합니다. 교육자들도 AI 도구의 맥락에서 학문적 진실성을 명시적으로 다루는 것이 중요하다고 합니다. 표절을 구성하는 것이 무엇인지, 비윤리적 관행의 심각한 결과가 어떻게 되는지 학생들 사이에서 명확히 이해할 수 있도록 해야한다고 합니다. 이러한 것들은 학생들이 LLM의 책임 있고 윤리적인 사용을 촉진하기 위한 단계라고 저자들은 주장합니다.
저자들은 인공지능의 이상적인 활용은 인간의 계획과 사고를 대체하는 것이 아니라, 인간의 지능과 창의성을 높이고 육성하는 것이어야 한다고 강조합니다. 비판적 사고를 함양하기 위해서 학생들이 LLM의 출력을 평가하도록 요구하는 과제도 가능하다고 하네요. 이러한 접근 방식들은 모델에 대한 이해를 상승시킬 수 있을뿐 아니라, 자기 성찰과 동료 평가를 장려하여 비판적 사고 능력을 더욱 향상 시킬 수 있다고 합니다. 또한, LLM은 편향되거나 구식이거나(outdated) 공격적인 콘텐츠를 포함할 수 있는 방대한 양의 다양한 데이터에서 훈련을 했기에 편향을 반영하거나 잘못된 정보를 제공할 수도 있습니다. 데이터 사이언스 교육에서 이러한 윤리적 문제를 해결하는 것은 매우 중요하며, 학생들에게 LLM 생성 콘텐츠의 편향을 식별하고 완화할 수 있도록 가르쳐야 한다고 저자들은 주장합니다.
그렇기에 데이터 사이언스에서 윤리적 의사 결정에 초점을 맞춘 워크숍, 세미나, 그룹 토론 등은 매우 유용할 수 있다고 합니다. 또한, 윤리학자, 정책 입안자(policymaker), 산업 전문가, 윤리 머신러닝 연구원 등 연사를 초청해 다양한 관점을 공유하여 귀중한 통찰력을 제공할 수도 있을 것이라고 합니다. 무엇보다, data science 교육의 다양성과 포괄성을 강화하는 것이 중요하다고 합니다. LLM 기술에 접근하고 참여하는데 있어 대표성이 낮은 그룹을 지원하는 프로그램을 구현하는 것은 정보 격차를 해소하고 모든 학생이 이러한 발전에서 이익을 얻을 수 있는 기회를 받아야 한다고 저자들은 주장합니다.
Discussion
본 논문의 마지막 섹션입니다. 저자들은 데이터 사이언스의 미래는 AI와 인간 지능(human intelligence)의 교차점에 있다고 말하면서 데이터 기반 의사 결정의 전반적인 능력과 잠재력을 향상시키는 상호 보완적인 역할을 할 수 있을 것이라고 합니다. 인간은 고유한 강점과 능력을 유지하면서 AI의 통찰력과 능력을 기반으로 서로 시너지가 나는 것이죠. 본질적으로 AI 기술은 수학이나 코딩과 같은 특정 과목의 튜터 이상의 역할을 할 수 있을 것이라면서 인간의 지능 자체를 기르는데 중요한 역할을 할 수 있을 것이라고 말합니다. 데이터 과학자들은 AI의 힘을 활용해 고차원적인 사고 작업에 집중하고, 더 복잡한 문제 해결에 참여하며, 궁극적으로 더 많은 정보에 입각한 결정을 내릴 수 있을 것이라고 합니다.
마무리
본 포스팅은 Large Language Model(LLM) 시대에서 데이터 사이언스(Data Science) 교육이 어떻게 변화되어야 하는지 다룬 논문 "What Should Data Science Education Do with Large Language Model?"을 리뷰하는 포스팅이었습니다.
논문의 모든 내용을 다루지는 못 했지만, 핵심적인 부분을 리뷰해보았습니다.
개인적으론, 데이터 사이언스 교육에만 영향이 있을 것이라고 생각하지는 않습니다. 저자들이 주장한 개인화된 경험, 상호 작용, 윤리, 맞춤형 튜터, 정보 격차 해소 등이 교육 시스템 전반에 걸쳐서 여러 변화를 일으킬 수 있지 않을까?생각이 됩니다.
긴 글 읽어주셔서 감사합니다.
'LLM&RAG' 카테고리의 다른 글
PostgreSQL PGVector 설치 및 사용하기(Feat. 벡터 데이터베이스(Vector Database) 구축) (2) | 2024.12.09 |
---|---|
vLLM OpenAI API 서버와 랭체인(LangChain) 연동하여 RAG 구축하기 (1) | 2024.11.02 |
vLLM을 OpenAI API server(OpenAI-Compatible Server)로 배포하는 방법 및 예제(example) (3) | 2024.10.26 |
vLLM 사용법 - LLM을 쉽고 빠르게 추론(inference) 및 API 서빙(serving)하기 (4) | 2024.05.06 |
Ollama 사용법 - 개인 로컬 환경에서 LLM 모델 실행 및 배포하기 (5) | 2024.04.25 |