vLLM 사용하기
vLLM 사용하기 vLLM 은 LLM 서버를 운영할때 필수적으로 사용해야합니다.vLLM 은 처리량과 메모리를 효율적으로 관리해주고 동시에 여러 작업이 들어온경우 효율적으로 처리해 줍니다.또한, 기존의 HuggingFace transformers 또는 일반 llm 호출 방식보다 훨씬 빠른 추론 속도를 제공합니다.이는 특히 서버나 대량 요청 처리에 적합한 구조를 가지고 있기 때문입니다. vLLM 이 LLM 보다 빠른 이유는 다음과 같습니다.1. Paged KV Cache (페이징 키-값 캐시)기존 LLM은 시퀀스마다 KV 캐시를 새로 할당하지만,vLLM은 토큰 단위로 캐시를 효율적으로 재사용합니다.덕분에 수천 개의 요청을 병렬로 처리할 수 있습니다.2. Continuous Batch Scheduling여러 ..