Llama3-8B 모델을 로컬에서 돌려보는 방법을 알아봅니다.
먼저 Llama3-8B 모델을 다운 받아야합니다.
https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF-v2/tree/main
여기로 가서 원하는 모델을 다운 받습니다.
Q2, Q3, Q4 뒤에 있는 숫자가 양자화 수준을 의미합니다.
하드웨어가 받쳐준다면 Q5 이상을 다운 받습니다.
저 같은 경우 Meta-Llama-3-8B-Instruct-v2.Q8_0.gguf 파일을 다운받았습니다.
특정폴더를 하나 만들어서 위 gguf 파일을 옮겨 놓고 아래 Modelfile 을 같은 곳에 다운 받습니다.
Modelfile 내용 중에 제일 처음에 FROM 뒤에 자신이 다운받은 모델명을 넣어야 합니다.
FROM Meta-Llama-3-8B-Instruct-v2.Q8_0.gguf
TEMPLATE """{{- if .System }}
<|begin_of_text|>system {{ .System }}<|end_of_text|>
{{- end }}
<|begin_of_text|>user
{{ .Prompt }}<|end_of_text|>
<|begin_of_text|>assistant
"""
SYSTEM """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions."""
PARAMETER temperature 0
PARAMETER num_ctx 4096
PARAMETER stop <|begin_of_text|>
PARAMETER stop <|end_of_text|>
PARAMETER stop <|eot_id|>
PARAMETER stop <|end_of_text|>
TEMPLATE 은 응답에 대한 구조라고 보면 되는데 이상한 답변이 나오는 경우 조정해야 합니다.
temperature 는 답변의 창의성으로 숫자가 클루록 창의적인 답변을 하게 됩니다.
num_ctx 는 답변의 최대 길이로 숫자가 클수록 답변이 길어집니다.
Ollama 를 다운로드하여 설치합니다.
전 윈도우라서 Download for Windows 버튼을 클릭해 다운로드하였고 설치했습니다.
설치는 실행하면 선택하는 거 없이 설치가 됩니다.
이제 cmd 창에서 ollama 명령을 실행해 봅니다.
설치가 잘 되었다면 아래처럼 결과가 나와야 합니다.
cmd 창을 열어 guff 파일과 Modelfile 이 있는 폴더로 이동합니다.
아래 명령을 실행합니다.
ollama create llama3-instruct-8b -f Modelfile
위와 같은 화면이 나오면서 모델 생성이 진행됩니다.
시간이 좀 걸립니다.
모두 끝나면 아래 명령으로 확인합니다.
ollama list
제대로 생성된 걸 확인할 수 있습니다.
생성된 모델을 바로 확인하기 위해서 아래 명령을 보냅니다.
ollama run llama3-instruct-8b:latest
아래와 같이 메시지 입력하는 창이 나오고 여기에 질문을 하게 되면 답변해 줍니다.
GPT4ALL 사용해 보기 (0) | 2024.06.16 |
---|---|
나만의 ChatGPT 만들기 - text-generation-webui (0) | 2024.06.15 |
llama index 를 이용해 내가 가진 data 로 질문하기 - OpenAI (0) | 2024.06.11 |
FastAPI index.html 시작 페이지로 만들기 (0) | 2024.06.11 |
.env 파일에서 OPENAI_API_KEY 처리하기 (0) | 2024.06.08 |