Oh Happy Life

글

1월, 2025의 게시물 표시

RTX4080S 에서동작시킬만한 local LLM model 성능에 대한 주관적 비교

### Ollama를 활용한 로컬 LLM 모델 테스트 정리 Ollama를 사용하여 다양한 LLM(Local Language Model)을 테스트한 결과를 두 가지 주요 관점에서 평가할 수 있었습니다: 1. **한국어 처리 성능의 한계**: 대부분의 모델이 한국어를 제대로 처리하지 못하거나, 일부 깨짐 현상이 발생했습니다. 2. **지연 시간(Latency)**: 모델 응답 속도가 느려 실사용에 어려움이 있었습니다. ### 테스트 환경 - **PC 사양**: Intel i7, DDR 32GB, RTX 4080S (12GB VRAM) - **제약 사항**: Llama 3.3 70B 모델은 VRAM 부족으로 로딩 불가. ### 모델별 평가 결과 #MODEL_NAME = "llama3.2" 한국어가 일부 깨짐 #MODEL_NAME = "EEVE-Korean-10.8B" #MODEL_NAME = "llama3-instruct-8b" 한국어로 대답하지 못함함 #MODEL_NAME = "llama3.3:70b-instruct-q2_K" 너무 느림 #MODEL_NAME = "phi3:medium" 성능이 나쁨 #MODEL_NAME = "gemma2:27b" 많이 느리나 챗GPT 같음 MODEL_NAME = "gemma2" # 빠름 ### 결론 - 한국어 처리가 중요한 경우, 현재 Ollama 기반 LLM은 한계가 있습니다. - 고성능 모델은 지연 시간이 길거나 메모리 한계로 인해 로딩이 어려운 경우가 많습니다. - 빠른 응답 속도를 원한다면 Gemma2와 같은 경량 모델이 적합하지만, 성능은 제한적일 수 있습니다. 일단 EEVE-Korean-10.8B 와 gemma2 를 번갈아가면서 써보려고 합니다. 참고할 내용들 Citations: [1] https://www.youtube.com/watch?v=GsZ9w04smVE [2] https://cod...

자세한 내용 보기