Oh Happy Life

글

최근 글

자신이 가진 CPU/GPU환경에 맞는 LLM을 골라보자

Reason: Searching for lightweight LLMs that can be used in VS Code. reference https://github.com/aidatatools/ollama-benchmark how to Run llm_benchmark run --no-sendinfo --custombenchmark=C:\Python311\Lib\site-packages\llm_benchmark\data\custombenchmarkmodels.yml C:\Python311\Lib\site-packages\llm_benchmark\data\custombenchmarkmodels.yml # Author: Peter Lim # License: # Created: 2025-03-30 version : 1.0 models : - model : deepseek-r1:1.5b - model : deepseek-r1:8b - model : deepseek-coder-v2 - model : gemma:2b - model : gemma2:9b - model : gemma3:4b - model : phi:2.7b - model : phi3:3.8b - model : phi4:14b - model : mistral:7b

자세한 내용 보기

FastAPI 개발환경 구성하기

Pure Windows는 적합하지 않을 것 같아 WSL에서 Docker 기반으로 환경을 구성하고 Docker Desktop 설치후 WSL 환경에서 Docker image 로 my-fastapi-app 를 준비함 " docker build -t my-fastapi-app . " WSL 환경에서 Docker container 로 fastapi-app 로 데몬으로 준비, 포트 8000 연결조건 docker run -d -p 8000:8000 --name fastapi-app my-fastapi-app WSL 환경에서 Docker containter를 종료시 삭제조건과 app폴더를 연결하는 조건 docker run -d -p 8000:8000 --rm -v $(pwd):/app my-fastapi-app WSL 환경에서 Docker containter에게 이름 fastapi-app 지정하는 조건 docker run -d -p 8000:8000 -v $(pwd):/app --name fastapi-app my-fastapi-app WSL 에서 Docker container fastapi-app 에 연결하기 docker exec -it fastapi-app /bin/bash

자세한 내용 보기

OpenAI API 대신 ollama API 서버 사용해보기 OPENAI는 경쟁자 대비 성능과 편의성에서 앞서 나가고 있기 때문에 후발주자는 OpenAI의 API형태를 산업표준처럼 지원하고 있다. 실제 서비스를 위해서는 성능 좋은 OpenAI API 서비스를 사용해야하지만 학습하는 입장에서API호출하는 방법을 연습하기 위해서 Ollama Server가 제공하는 호환 API로 동작테스트해본다. 일반적으로 설치한 Ollama 서버는 0.0.0.0:11434 port에서 통상 동작한다. 다르게 변경했다면 그에 맞게 수정필요하다. " v1/chat/completions" 이 부분은 OpenAI 가 제공한 API endpoint인데 후발주자들도 이 형식을 지원한다. Ollama 서버이용 import requests import json def classify_intent_llm ( text ): system_prompt = f """You are a helpful assistant that classifies user intents based on a few examples. Examples: - User: 오늘 서울의 날씨는 어때? -> Intent: weather - User: 가까운 커피숍 어디 있어? -> Intent: location_search - User: 최근에 출시된 대출 상품에 대해 알려줘. -> Intent: product_info Consideration: Only outputs the name of intent. """ user_prompt = f """Classify the following user input: User: { text } -> Intent: """ # Ollama API 엔드포인트 url = "http://localhost:11434...

자세한 내용 보기

RTX4080S 에서동작시킬만한 local LLM model 성능에 대한 주관적 비교

### Ollama를 활용한 로컬 LLM 모델 테스트 정리 Ollama를 사용하여 다양한 LLM(Local Language Model)을 테스트한 결과를 두 가지 주요 관점에서 평가할 수 있었습니다: 1. **한국어 처리 성능의 한계**: 대부분의 모델이 한국어를 제대로 처리하지 못하거나, 일부 깨짐 현상이 발생했습니다. 2. **지연 시간(Latency)**: 모델 응답 속도가 느려 실사용에 어려움이 있었습니다. ### 테스트 환경 - **PC 사양**: Intel i7, DDR 32GB, RTX 4080S (12GB VRAM) - **제약 사항**: Llama 3.3 70B 모델은 VRAM 부족으로 로딩 불가. ### 모델별 평가 결과 #MODEL_NAME = "llama3.2" 한국어가 일부 깨짐 #MODEL_NAME = "EEVE-Korean-10.8B" #MODEL_NAME = "llama3-instruct-8b" 한국어로 대답하지 못함함 #MODEL_NAME = "llama3.3:70b-instruct-q2_K" 너무 느림 #MODEL_NAME = "phi3:medium" 성능이 나쁨 #MODEL_NAME = "gemma2:27b" 많이 느리나 챗GPT 같음 MODEL_NAME = "gemma2" # 빠름 ### 결론 - 한국어 처리가 중요한 경우, 현재 Ollama 기반 LLM은 한계가 있습니다. - 고성능 모델은 지연 시간이 길거나 메모리 한계로 인해 로딩이 어려운 경우가 많습니다. - 빠른 응답 속도를 원한다면 Gemma2와 같은 경량 모델이 적합하지만, 성능은 제한적일 수 있습니다. 일단 EEVE-Korean-10.8B 와 gemma2 를 번갈아가면서 써보려고 합니다. 참고할 내용들 Citations: [1] https://www.youtube.com/watch?v=GsZ9w04smVE [2] https://cod...

자세한 내용 보기

llama 계열 gguf 제공되는 경우 가져와서 사용하는 예제

llama 계열의 모델이 친절하게 gguf 형태로 제공되는 경우 어떻게 다운받고 어떻게 ollama에 추가하는지 예전에 gguf 파일을 등록하는 유튜브 강의를 보고 메모해두것을 기반으로 2024년 12월31일 추운 겨울 밤 기억을 백업해 봅니다 수동으로 작성한 것은 지우고 copilot으로 포맷을 정리해서 업데이트합니다. Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M 한국어 모델 추가하기 시작 : MS Copilot과의 질의응답 중 llama 3.2 기반의 한국어 학습 모델을 발견. 현재 사용 모델 : EEVE-Korean-10.8B (약 7.7 GB) 모델 사용 중. llama 3.2 기반 한국어 모델 소개 : 모델 설명 링크 gguf 파일 다운로드 링크 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 기반 한국어 모델 소개 : 모델 설명 링크 gguf 파일 다운로드 링크 모델 설정 파일 (Modelfile) : FROM llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf PARAMETER temperature 0.6 PARAMETER top_p 0.9 TEMPLATE """<|start_header_id|>system<|end_header_id|> Cutting Knowledge Date : December 2023 {{ if .System }}{{ .System }} {{- end }} {{- if .Tools }} When you receive a tool call response, use the output to format an answer to the orginal user question. You are a helpful assistant with tool calling capabilities. {{- end }} <|eot_id|> {{- range $i , $_ := .Messa...

자세한 내용 보기

RTX GPU를 가진환경에서 torch 설치하기 2024.12기준

RTX 4080S , RTX 2070S 활용하는 torch 설치하기 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 GPU 설치되어 있는 GPU Driver 에 따라서 상황이 달라질수도 있으나 , 안정적이고 최근이라고 판단한 NVIDIA CUDA 12.7.33 driver 를 사용할 수 있는 2024년12월기준으로는 pytorch 등을 CPU를 사용하지 않고, GPU를 활용하여 torch가 동작시킬 수 있었다 테스트환경 RTX2070S 와 RTX4080S 에서 확인 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp;C:\Python311\Scripts\;C:\Python311\;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\libnvvp;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\libnvvp; cuda 버젼 설치확인 (finetuning-py3.11) M:\WORK_LLM\finetuning>python check_gpu.py version 12.4 cuda 버젼 설치확인 script (finetuning-py3.11) M:\WORK_LLM\finetuning>type check_gpu.py #pip conda install pytorch torchvision torchaudio pytorch-cuda=12.1 ...

자세한 내용 보기

Oh Happy Life

이 블로그 검색

글

VSCODE 빌드환경만들기, 디버깅환경 만들기 초간단 예제

자신이 가진 CPU/GPU환경에 맞는 LLM을 골라보자

FastAPI 개발환경 구성하기

RTX4080S 에서동작시킬만한 local LLM model 성능에 대한 주관적 비교

llama 계열 gguf 제공되는 경우 가져와서 사용하는 예제

RTX GPU를 가진환경에서 torch 설치하기 2024.12기준