목록llm serving (1)
꿈 많은 사람의 이야기
vLLM 사용법 - LLM을 쉽고 빠르게 추론(inference) 및 API 서빙(serving)하기
포스팅 개요이번 포스팅은 대규모 언어 모델(Large Language Models, LLM)을 쉽고 빠르게 배포(deploy), 추론(inference) 및 서빙(serving)할 수 있는 vLLM 라이브러리에 대해서 알아봅니다. vLLM이란 무엇이고, vLLM을 사용해서 어떻게 LLM을 배포하고 실행하는지 예제(example) 형태로 정리합니다. 결과적으로 vLLM을 사용하면 빠른 속도로 LLM들을 API 형태로 서빙 및 배포할 수 있습니다. vLLM과 관련된 글들은 아래와 같이 주제별로 분리되어 있습니다. vLLM 사용법과 소개 : 본 포스팅vLLM을 OpenAI 서버(server)로 배포하는 방법 : https://lsjsj92.tistory.com/673OpenAI 서버로 배포된 vLLM을 랭체인..
LLM&RAG
2024. 5. 6. 10:12