### Ollama를 활용한 로컬 LLM 모델 테스트 정리 Ollama를 사용하여 다양한 LLM(Local Language Model)을 테스트한 결과를 두 가지 주요 관점에서 평가할 수 있었습니다: 1. **한국어 처리 성능의 한계**: 대부분의 모델이 한국어를 제대로 처리하지 못하거나, 일부 깨짐 현상이 발생했습니다. 2. **지연 시간(Latency)**: 모델 응답 속도가 느려 실사용에 어려움이 있었습니다. ### 테스트 환경 - **PC 사양**: Intel i7, DDR 32GB, RTX 4080S (12GB VRAM) - **제약 사항**: Llama 3.3 70B 모델은 VRAM 부족으로 로딩 불가. ### 모델별 평가 결과 #MODEL_NAME = "llama3.2" 한국어가 일부 깨짐 #MODEL_NAME = "EEVE-Korean-10.8B" #MODEL_NAME = "llama3-instruct-8b" 한국어로 대답하지 못함함 #MODEL_NAME = "llama3.3:70b-instruct-q2_K" 너무 느림 #MODEL_NAME = "phi3:medium" 성능이 나쁨 #MODEL_NAME = "gemma2:27b" 많이 느리나 챗GPT 같음 MODEL_NAME = "gemma2" # 빠름 ### 결론 - 한국어 처리가 중요한 경우, 현재 Ollama 기반 LLM은 한계가 있습니다. - 고성능 모델은 지연 시간이 길거나 메모리 한계로 인해 로딩이 어려운 경우가 많습니다. - 빠른 응답 속도를 원한다면 Gemma2와 같은 경량 모델이 적합하지만, 성능은 제한적일 수 있습니다. 일단 EEVE-Korean-10.8B 와 gemma2 를 번갈아가면서 써보려고 합니다. 참고할 내용들 Citations: [1] https://www.youtube.com/watch?v=GsZ9w04smVE [2] https://cod...
llama 계열의 모델이 친절하게 gguf 형태로 제공되는 경우 어떻게 다운받고 어떻게 ollama에 추가하는지 예전에 gguf 파일을 등록하는 유튜브 강의를 보고 메모해두것을 기반으로 2024년 12월31일 추운 겨울 밤 기억을 백업해 봅니다 수동으로 작성한 것은 지우고 copilot으로 포맷을 정리해서 업데이트합니다. Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M 한국어 모델 추가하기 시작 : MS Copilot과의 질의응답 중 llama 3.2 기반의 한국어 학습 모델을 발견. 현재 사용 모델 : EEVE-Korean-10.8B (약 7.7 GB) 모델 사용 중. llama 3.2 기반 한국어 모델 소개 : 모델 설명 링크 gguf 파일 다운로드 링크 모델 설정 파일 (Modelfile) : FROM llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf PARAMETER temperature 0.6 PARAMETER top_p 0.9 TEMPLATE """<|start_header_id|>system<|end_header_id|> Cutting Knowledge Date : December 2023 {{ if .System }}{{ .System }} {{- end }} {{- if .Tools }} When you receive a tool call response, use the output to format an answer to the orginal user question. You are a helpful assistant with tool calling capabilities. {{- end }} <|eot_id|> {{- range $i , $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 }} {{- if eq .Role "u...