KeiStory

반응형

로컬에서 Llama3-8B 모델 돌려보기 - Ollama

 

Llama3-8B  모델을 로컬에서 돌려보는 방법을 알아봅니다.

 

모델준비

먼저 Llama3-8B 모델을 다운 받아야합니다.

https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF-v2/tree/main

 

QuantFactory/Meta-Llama-3-8B-Instruct-GGUF-v2 at main

 

huggingface.co

여기로 가서 원하는 모델을 다운 받습니다.

Q2, Q3, Q4 뒤에 있는 숫자가 양자화 수준을 의미합니다.

하드웨어가 받쳐준다면 Q5 이상을 다운 받습니다.

저 같은 경우 Meta-Llama-3-8B-Instruct-v2.Q8_0.gguf 파일을 다운받았습니다.

특정폴더를 하나 만들어서 위 gguf 파일을 옮겨 놓고 아래 Modelfile 을 같은 곳에 다운 받습니다.

Modelfile
0.00MB

Modelfile 내용 중에 제일 처음에 FROM 뒤에 자신이 다운받은 모델명을 넣어야 합니다.

FROM Meta-Llama-3-8B-Instruct-v2.Q8_0.gguf

TEMPLATE """{{- if .System }}
<|begin_of_text|>system {{ .System }}<|end_of_text|>
{{- end }}
<|begin_of_text|>user
{{ .Prompt }}<|end_of_text|>
<|begin_of_text|>assistant
"""

SYSTEM """A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions."""

PARAMETER temperature 0
PARAMETER num_ctx 4096
PARAMETER stop <|begin_of_text|>
PARAMETER stop <|end_of_text|>
PARAMETER stop <|eot_id|>
PARAMETER stop <|end_of_text|>

TEMPLATE 은 응답에 대한 구조라고 보면 되는데 이상한 답변이 나오는 경우 조정해야 합니다.

temperature 는 답변의 창의성으로 숫자가 클루록 창의적인 답변을 하게 됩니다.

num_ctx 는 답변의 최대 길이로 숫자가 클수록 답변이 길어집니다.

 

OLLAMA 설치

Ollama 를 다운로드하여 설치합니다.

https://ollama.com/download

 

Download Ollama on macOS

Download Ollama on macOS

ollama.com

전 윈도우라서 Download for Windows 버튼을 클릭해 다운로드하였고 설치했습니다.

설치는 실행하면 선택하는 거 없이 설치가 됩니다.

이제 cmd 창에서  ollama 명령을 실행해 봅니다.

설치가 잘 되었다면 아래처럼 결과가 나와야 합니다.

 

ollama 모델생성 및 실행

cmd 창을 열어 guff 파일과 Modelfile 이 있는 폴더로 이동합니다.

아래 명령을 실행합니다.

ollama create llama3-instruct-8b -f Modelfile

위와 같은 화면이 나오면서 모델 생성이 진행됩니다.

시간이 좀 걸립니다.

모두 끝나면 아래 명령으로 확인합니다.

ollama list

제대로 생성된 걸 확인할 수 있습니다.

생성된 모델을 바로 확인하기 위해서 아래 명령을 보냅니다.

ollama run llama3-instruct-8b:latest

아래와 같이 메시지 입력하는 창이 나오고 여기에 질문을 하게 되면 답변해 줍니다.

 

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band