오늘도 Ollama

지난번의 반복 복습입니다. 모델 하나 굴리는데 데스크탑도 왠만큼 쓸만하다는 것을 봤고, 오늘은 노트북에 해봅니다. 1240p에 64GB, GPU는 IRIS라서, 뭐 포기고 CPU로 몰빵해서 비교해보려합니다. IRIS라서 GPU는 볼이 없으니 gpu옵션은 빼고.

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
docker container list 
로 잘돌고 있는걸 확인하고
docker exec -it ollama ollama run qwen3-coder

간단하게 web으로 regex를 바로 변환해서 예쁘게 보여주는 사이트 하나 생성해달라고 하니 열심히 만들어 냅니다. RAM은 대략 18GB정도 소비하고 있네요. CPU 4개이상을 안 쓰는 것 같은데.. 리소스를 좀더 투입하는게 가능한건지 궁금해서 찾아보니, docker 멈추고, 아래 옵션을 주어야 하나보네요..

$ docker stop ollama
$ docker rm ollama
$ docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama -e OLLAMA_NUM_THREADS=16 ollama/ollama 

여전해서 추가로 아래도 해봤지만 동일하고..

docker run -d --cpuset-cpus="0-15" -v ollama:/root/.ollama -p 11434:11434 --name ollama -e OLLAMA_NUM_THREADS=16 ollama/ollama

해서 아래로 modefile추출하고

sudo docker exec -it ollama ollama show qwen3-coder --modelfile > Modelfile

파라미터 추가하고

PARAMETER num_thread 16

새 모델 생성

sudo docker exec -it ollama ollama create qwen3-coder-max -f Modelfile

새 모델 실행

sudo docker exec -it ollama ollama run qwen3-coder-max

다시 생성

docker exec -it ollama ollama create qwen-16thread -f - < Modelfile

일단 실패입니다. 3/30일 했던건데, 다음날 좀 해보면 되겠지 했다가 2주넘게 진행을 못했네요. 다른 기기테스트로 넘어갑니다. 그리고 TOPS와 Benchmark들을 좀 알아보게 되고, LMStudio랑, llama.cpp 등도 살짝씩 기웃거려보고 있습니다. UI쪽으로 건너갈지, 아예 하부 모델레이어로 학습 초점을 바꿔 내려갈지 오락가락 하고있네요.


게시됨

카테고리

작성자

태그: