기본 콘텐츠로 건너뛰기

RTX4080S 에서동작시킬만한 local LLM model 성능에 대한 주관적 비교

### Ollama를 활용한 로컬 LLM 모델 테스트 정리 Ollama를 사용하여 다양한 LLM(Local Language Model)을 테스트한 결과를 두 가지 주요 관점에서 평가할 수 있었습니다: 1. **한국어 처리 성능의 한계**: 대부분의 모델이 한국어를 제대로 처리하지 못하거나, 일부 깨짐 현상이 발생했습니다. 2. **지연 시간(Latency)**: 모델 응답 속도가 느려 실사용에 어려움이 있었습니다. ### 테스트 환경 - **PC 사양**: Intel i7, DDR 32GB, RTX 4080S (12GB VRAM) - **제약 사항**: Llama 3.3 70B 모델은 VRAM 부족으로 로딩 불가. ### 모델별 평가 결과 #MODEL_NAME = "llama3.2" 한국어가 일부 깨짐 #MODEL_NAME = "EEVE-Korean-10.8B" #MODEL_NAME = "llama3-instruct-8b" 한국어로 대답하지 못함함 #MODEL_NAME = "llama3.3:70b-instruct-q2_K" 너무 느림 #MODEL_NAME = "phi3:medium" 성능이 나쁨 #MODEL_NAME = "gemma2:27b" 많이 느리나 챗GPT 같음 MODEL_NAME = "gemma2" # 빠름 ### 결론 - 한국어 처리가 중요한 경우, 현재 Ollama 기반 LLM은 한계가 있습니다. - 고성능 모델은 지연 시간이 길거나 메모리 한계로 인해 로딩이 어려운 경우가 많습니다. - 빠른 응답 속도를 원한다면 Gemma2와 같은 경량 모델이 적합하지만, 성능은 제한적일 수 있습니다. 일단 EEVE-Korean-10.8B 와 gemma2 를 번갈아가면서 써보려고 합니다. 참고할 내용들  Citations: [1] https://www.youtube.com/watch?v=GsZ9w04smVE [2] https://cod...
최근 글

llama 계열 gguf 제공되는 경우 가져와서 사용하는 예제

llama 계열의 모델이 친절하게 gguf 형태로 제공되는 경우 어떻게 다운받고 어떻게 ollama에 추가하는지 예전에 gguf 파일을 등록하는 유튜브 강의를 보고 메모해두것을 기반으로 2024년 12월31일 추운 겨울 밤 기억을 백업해 봅니다 수동으로 작성한 것은 지우고 copilot으로 포맷을 정리해서 업데이트합니다. Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M 한국어 모델 추가하기 시작 : MS Copilot과의 질의응답 중 llama 3.2 기반의 한국어 학습 모델을 발견. 현재 사용 모델 : EEVE-Korean-10.8B (약 7.7 GB) 모델 사용 중. llama 3.2 기반 한국어 모델 소개 : 모델 설명 링크 gguf 파일 다운로드 링크 모델 설정 파일 (Modelfile) : FROM llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf PARAMETER temperature 0.6 PARAMETER top_p 0.9 TEMPLATE """<|start_header_id|>system<|end_header_id|> Cutting Knowledge Date : December 2023 {{ if .System }}{{ .System }} {{- end }} {{- if .Tools }} When you receive a tool call response, use the output to format an answer to the orginal user question. You are a helpful assistant with tool calling capabilities. {{- end }} <|eot_id|> {{- range $i , $_ := .Messages }} {{- $last := eq (len (slice $.Messages $i)) 1 }} {{- if eq .Role "u...

RTX GPU를 가진환경에서 torch 설치하기 2024.12기준

  RTX 4080S , RTX 2070S 활용하는 torch 설치하기 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124 GPU 설치되어 있는 GPU Driver 에 따라서 상황이 달라질수도 있으나 , 안정적이고 최근이라고 판단한 NVIDIA CUDA 12.7.33 driver 를 사용할 수 있는 2024년12월기준으로는  pytorch 등을 CPU를 사용하지 않고, GPU를 활용하여 torch가 동작시킬 수 있었다 테스트환경 RTX2070S 와 RTX4080S 에서 확인 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6\libnvvp;C:\Python311\Scripts\;C:\Python311\;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.7\libnvvp;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\bin;C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\libnvvp; cuda 버젼 설치확인 (finetuning-py3.11) M:\WORK_LLM\finetuning>python check_gpu.py version 12.4 cuda 버젼 설치확인 script (finetuning-py3.11) M:\WORK_LLM\finetuning>type check_gpu.py #pip conda install pytorch torchvision torchaudio pytorch-cuda=12.1 ...

Github CLI 써보기

 Github CLI 써보기 GitHub에 접근할때 git만 사용했는데 github에서 제공하는 인터페이스를 써본다. https://cli.github.com/manual/ git 으로 하는것과 무슨차이가 있겠나 싶긴했는데  gh를 처음에 설정하는 귀찮음을 동반하지만 gh로 로그인을 할때 API로 한번 인증해두면 코드 가져올때 나쁘지 않은것 같다. gh auth login github에 있는 repo 당겨오는 예시 gh repo clone johlim/hello-world cd hello-world git log --graph

OS가 설치된 PM981A (512GB)를 A440Pro(2TB)로 NVME 마이그레이션 과정

조립대행으로 마춘 컴퓨터라 NVME 마이그레이션을 처음인데 무사히 마쳐서 2~3년뒤에 혹시 찾아볼까 싶어 기록으로 남깁니다. 사용하는 제품은 NVME 제품은 삼성전자 PM Pm981a M.2 NVME 512GB 인데 국내에서는 삼성전자 내장 SSD 970 EVO Plus NVMe M.2 500 GBMZ-V7S500BW https://www.samsung.com/sec/memory-storage/970-evo-plus-nvme-m2-ssd/MZ-V7S500BW/ 기존시스템 AMD 라이젠 3600 (마티스) MSI B450M 박격포 맥스 M2_1 은 PCI e3.0 M2_2 는 PCIe 2.0 삼성전자 PM Pm981a M.2 NVME 512GB C 드라이브가 점점 차올라서 TeamGroup A440 Pro PCIe 4.0x4 2TB 구입 11월25일 주문, 12월2일 배송 JEYI 방열패드 조립 https://youtu.be/idZ3ctqlpwo?si=Ade03n0afuMKTD9q 존스보 방열판보다는 더 두꺼우나 장착에는 문제가 없음. M.2 2nd slot에 장착 Migration Program 준비 여기서 시간소요 많이함, Free 버젼에서 Clone기능이 막혀있거나 Trial에서도 안되는 복제기능이 지원되지 않음. AOMEI backup Std Clone 미지원 AOMEI backup Pro Tirla Clone 미지원 Samsung Disk_Mirgration (지원하지 않는다는 이야기가 있어서 Skip) refect home trial 지원 refect home trial로 clone시 21분소요 PCIe 3.0 x4 에서 PCIe 2.0 x4 로 clone C: Pm981a spec상 속도가 3500MB/s, 쓰기 속도는 3200MB/s F: A440 Pro spec상 속도가 7400MB/s, 쓰기 속도는 7000MB/s 복제완료후 PCIe 3.0 의 PM981A와 PCIe 2.0 의 A440 Pro를 스왑 해매는 포인트 여기서 약간 해맸...
 ASUS RT-AC68U 공유기의 간이 NAS 기능 재발견 WD MyCloud 를 가지고 있어서 공유기의 부가기능인 NAS 기능에 대해서 관심이 없었지만 WD MyCloud가 이제 수명이 다했는지 종종 다운이 되어서 불편해지고 있어 대체재를 찾기 위해서 조사해본다. 나중에 잊어버릴것 같아서 기록 순서 1. Insert a empty USB memory Stick to ASUS USB 2.0 Port 2. Install Download Master ASUS 관리콘솔로 로그인 한뒤 Downloader Master 관련 package를 설치한다. package 설치시 시키는대로 하면 된다.  Downloader 가 다운로드 받을 위치를 download 받을 위치를 USB Disk로 지정한다. 필요한 경우 Windows PC에서 운영할 수 있는 Program을 사용해도 되는데 이 작업도 ASUS  Downloader Manager로 로그인해서 처리할 수 있다. 3. config Server center 다운로드 받은 내용을 PC에서 보기위해서는 Upnp이나 FTP, SAMBA 같은 서버가 활성화 되어야한다. 서버 센터로 가서 SAMBA 서버를 설치한다.  같은 네트워크안에 삼바서버가 설치가 되어 있으면  PC에서 "\\장치이름" 이라고 파일탐색기에서 입력하면  USB Memory Stick이 보인다. 만약 장치이름을 USBDISK 와 네트워크를 "USBDISK"와 PC와 동일한 WorkGroup으로 설정하면  예시  " \\USBDISK" #BenQ 27inch Monitor #Western Digitial MyCloud Gen1 #ASUS RT-AC68U 네트워크 프린터 서버는 필요해서 몇번 해보긴했는데 정말 쓰XX 처럼 잘 동작하지 않았다.  제대로 되지 않아서 포기.