목록2025/03/12 (1)
꿈 많은 사람의 이야기

포스팅 개요본 포스팅은 ChatGPT와 같은 LLM 모델들에 대한 보안 문제, 구체적으로 탈옥(Jailbreak) 문제를 다룬 논문인 Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming 논문을 리뷰하는 포스팅입니다. 본 논문은 클로드(Claude) 계열의 모델(Claude Sonnect, Haiku 등)을 만든 회사인 앤트로픽(Anthropic)의 Safeguards Research Team에서 작성한 논문입니다. 본 논문은 LLM의 취약점 중 하나인 Jailbreak 공격에 대해서 어떻게 대응하고 방어할 지 연구하였으며 Red Team을 활용해 3,000시간 이상..
LLM&RAG
2025. 3. 12. 21:32