OpenAI API 대신 ollama API 서버 사용해보기 OPENAI는 경쟁자 대비 성능과 편의성에서 앞서 나가고 있기 때문에 후발주자는 OpenAI의 API형태를 산업표준처럼 지원하고 있다. 실제 서비스를 위해서는 성능 좋은 OpenAI API 서비스를 사용해야하지만 학습하는 입장에서API호출하는 방법을 연습하기 위해서 Ollama Server가 제공하는 호환 API로 동작테스트해본다. 일반적으로 설치한 Ollama 서버는 0.0.0.0:11434 port에서 통상 동작한다. 다르게 변경했다면 그에 맞게 수정필요하다. " v1/chat/completions" 이 부분은 OpenAI 가 제공한 API endpoint인데 후발주자들도 이 형식을 지원한다. Ollama 서버이용 import requests import json def classify_intent_llm ( text ): system_prompt = f """You are a helpful assistant that classifies user intents based on a few examples. Examples: - User: 오늘 서울의 날씨는 어때? -> Intent: weather - User: 가까운 커피숍 어디 있어? -> Intent: location_search - User: 최근에 출시된 대출 상품에 대해 알려줘. -> Intent: product_info Consideration: Only outputs the name of intent. """ user_prompt = f """Classify the following user input: User: { text } -> Intent: """ # Ollama API 엔드포인트 url = "http://localhost:11434...
### Ollama를 활용한 로컬 LLM 모델 테스트 정리 Ollama를 사용하여 다양한 LLM(Local Language Model)을 테스트한 결과를 두 가지 주요 관점에서 평가할 수 있었습니다: 1. **한국어 처리 성능의 한계**: 대부분의 모델이 한국어를 제대로 처리하지 못하거나, 일부 깨짐 현상이 발생했습니다. 2. **지연 시간(Latency)**: 모델 응답 속도가 느려 실사용에 어려움이 있었습니다. ### 테스트 환경 - **PC 사양**: Intel i7, DDR 32GB, RTX 4080S (12GB VRAM) - **제약 사항**: Llama 3.3 70B 모델은 VRAM 부족으로 로딩 불가. ### 모델별 평가 결과 #MODEL_NAME = "llama3.2" 한국어가 일부 깨짐 #MODEL_NAME = "EEVE-Korean-10.8B" #MODEL_NAME = "llama3-instruct-8b" 한국어로 대답하지 못함함 #MODEL_NAME = "llama3.3:70b-instruct-q2_K" 너무 느림 #MODEL_NAME = "phi3:medium" 성능이 나쁨 #MODEL_NAME = "gemma2:27b" 많이 느리나 챗GPT 같음 MODEL_NAME = "gemma2" # 빠름 ### 결론 - 한국어 처리가 중요한 경우, 현재 Ollama 기반 LLM은 한계가 있습니다. - 고성능 모델은 지연 시간이 길거나 메모리 한계로 인해 로딩이 어려운 경우가 많습니다. - 빠른 응답 속도를 원한다면 Gemma2와 같은 경량 모델이 적합하지만, 성능은 제한적일 수 있습니다. 일단 EEVE-Korean-10.8B 와 gemma2 를 번갈아가면서 써보려고 합니다. 참고할 내용들 Citations: [1] https://www.youtube.com/watch?v=GsZ9w04smVE [2] https://cod...