목록2024/05/06 (1)
꿈 많은 사람의 이야기
vLLM 사용법 - LLM을 쉽고 빠르게 추론(inference) 및 API 서빙(serving)하기
포스팅 개요이번 포스팅은 대규모 언어 모델(Large Language Models, LLM)을 쉽고 빠르게 배포(deploy), 추론(inference) 및 서빙(serving)할 수 있는 vLLM 라이브러리에 대해서 알아봅니다. vLLM이란 무엇이고, vLLM을 사용해서 어떻게 LLM을 배포하고 실행하는지 예제(example) 형태로 정리합니다. 결과적으로 vLLM을 사용하면 빠른 속도로 LLM들을 API 형태로 서빙 및 배포할 수 있습니다.이번 포스팅을 작성하면서 참고한 자료는 아래와 같습니다. https://docs.vllm.ai/en/latest/https://github.com/vllm-project/vllm?tab=readme-ov-filehttps://python.langchain.com/d..
카테고리 없음
2024. 5. 6. 10:12