오늘도 Gemini와 함께 나만의 AI서버를 만들어보는 놀이를 계속합니다.

그냥 검색하는 기분으로 그냥 구글에 넣으면 알아서 답변이 생성되어 편합니다. 어제까지는 맥북에서 돌려보는 놀이를 했고, 오늘은 맥북으로는 이글을 쓰고, 보유한 그나마 가장 사양이 높은 i13500, GTX1080을 고문해봅니다. 나름 고~~오급에 최신 사양이므로 .T.T. docker를 한번 더 끼워서 해봅니다. 이번엔 GPU도 써볼테니, 관련 방법도 찾아달라고 gemini에게 졸라봅니다. 이전에 이미지 생성할때도 나름 GPU로 제법 성능이 좋은게 눈에 보일정도였으니, 이번에는 꽤 쓸만한 성능이 나오지 않을까 기대해봅니다.

1. Gemini 가 필요한 설치 명령등등은 다 알려줍니다. nvidia그래픽 카드라서
$ nvidia-smi
로 제대로 드라이버 설치되어 있는지부터 알아보라고 하는군요. Driver 535.288.01 CUDA 12.2 로 잘 뜨네요. 8GB GDDR이긴한데, 알아서 잘 분배해서 쓰도록 해주면 좋겠군요. Docker 도 이미 깔려 있지만. 다시 확인해보고, 알려준건 다 기록해봅니다. 언제 또 딴소리할지 모르니까요..   미래엔 무슨 버튼만 누르면 된다고 답변이 생성될지도 모르고….
$ sudo apt update && sudo apt upgrade -y
$ curl -fsSL https://get.docker.com -o get-docker.sh
$ sudo sh get-docker.sh

2. 다음은 NVIDIA Container Toolkit을 설치하라고 합니다. 요거 없이 바로 다음에 나올
ollama docker gpu버전을 설치했더니 에러가 나오긴했어서.
docker: Error response from daemon: could not select device driver “” with capabilities: [[gpu]].
이번에 가이드 따라서 설치해봅니다.
$ curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg –dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
$ curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed ‘s#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g’ | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
$ sudo apt udpate
$ sudo apt install -y nvidia-container-toolkit
$ sudo nvidia-ctk runtime configure –runtime=docker
$ sudo systemctl restart docker

3. Ollama를 Docker에 설치합니다. Gemini 에게 CPU 전용 Docker이미지 설치도 알려달라고 하면 그것도 알려주니 필요하시면 물어보세요.
$ docker run -d –gpus=all -v Ollama:/root/.ollama -p 11434:11434 –name ollama ollama/ollama
아.. 아까 설치했던것 때문에 지우라고 하는군요.. 그럼 지우고, 다시 하면. 그냥 instance만 새로 만드나보네요.
$ docker remove ollama 하고 위 다시 실행하고, 확인
$ docker container ls. 하니 잘 돌고 있군요.

4. qwen3-coder  를 설치해봅니다.
$ docker exec -it ollama ollama run qwen3-coder

5. 확인절차로 컨테이너에서 Nvidia드라이버 인식하는지 알아보라네요.. 아까보다 먼저해야하는 거 아닌가 싶지만. 그냥 합니다.
$ docker exec -it ollama nvidia-smi
뭔지 모르겠지만.. 장치랑, 드라이버 535.288.01은 잘 깔린것 같고, CUDA 12.2 라고 뜨네요..

따라하다보니 다른 분들 블로그에 아주 이쁘게 상세하게 설명해 놓은 페이지들도 많군요. 부럽습니다. wikidocs.net/306649. <- 정리가 깔끔하고 systemd 서비스로 구동시키는 것 까지 가이드해주시고 계시네요.

자 qwen3-coder도 깔렸습니다. 대충 18GB받았으니 그정도는 하겠죠? 잘 모르겠으니 위 블로그도 읽어봤겠다. 확인해봅니다.. 근데 그냥 qwen3-coder:latest라고 뜨네요..
$ docker exec -it ollama ollama list

검색해보니 보통 30B-3B MoE라고 15GB 언저리면 맞다고 하는데. 더 큰건 따로 지정해줘야하나봅니다. 450B-30B MoE 처리량 모델이 따로 있는 것 같긴하네요. 뭔가 굉장히 전문적인 전문가만이 잘 알고 해볼 수 있는 블로그도 있어 보입니다. 어디 더 쉬운거 있을 것 같은데..(https://unsloth.ai/docs/models/tutorials/qwen3-coder-how-to-run-locally)
Gemini 에게 물어보니 아래로 좀더 구체적인 모델 확인이 가능하다고합니다.
$ docker exec -it ollama show qwen3-coder:latest.
해보니 30.5B 라네요..

hello 치며 굉장히 짧게 대답해줍니다. 맘에드네요.. 이제 코드 질문을 해봅니다.

오!!!!! 쓸만한 속도로 답변이 나옵니다. 이거면 되겠네요..외부 서비스 굳이 의존 안해도 왠만하면 30GB 내에 있는 정보 덩어리는 꺼내서 왠만한 쓸만한거 만들 수 있을 것 같습니다. 얼마전에 Gemini에게 물어봐서 적었던 Valgrind 사용법 예제 등등도 주욱주욱 뽑아주네요. 양에서도 밀리지 않습니다. 토큰 하나 안들어서 더 좋네요. 전기요금 고민해야겠군요..

마지막으로 시스템 리소스를 얼마나 잡고 있나 보니. 호스트에서는 GPU RAM 은 거의 OLLAMA가 전부 끌어쓰고 있는게 보입니다. 8기가중에 7.45기가를 다 가져갔군요.. 잘하면 화면 깨질 듯. 합니다. –; 멀티모니터는 안 쓰는게 좋겠군요..호스트시스템의 램은 겨우 14GB정도 사용되고 있군요. 이것저것 돌고 있는 걸 생각하면 거의 안쓰는 셈이네요.. 종료시켜보니 3기가로 줄어드는거 보니 한 11기가정도 사용하나봅니다.

이제 약간 욕심이 나서 Gemini에게 450b 짜리 쓰는 법 알려달라고 했더니, 경고를 붙이는군요.. 아.. 진작에 메인보드 바꾸고 메모리 오려둘껄 하는 후회가 드네요. 128GB 밖에 안되는데…

How to Install/Run the Qwen3-Coder 450B Model

The 450B (specifically Qwen3-Coder-480B-A35B) is an extremely large Model of Experts (MoE) model. Running it requires massive hardware. It is generally recommended to use quantified versions (e.g., Q4 or Q6) to make it fit, which still requires roughly 150GB to 300GB+ of available memory (GPU VRAM or RAM). RedditReddit +4

Method 1: Using Ollama (Easiest Method)

Ensure you have the latest version of Ollama installed. 

  1. Pull the Model: Open your terminal and run the pull command. Note that the 450B model is huge, so this will take a long time and require significant disk space:bashollama pull qwen3-coder:450b # Or the specific tag provided by Alibaba/community
  2. Run the Model:bashollama run qwen3-coder:450b Note: If your system does not have ~200GB+ VRAM, it will run incredibly slowly or crash. 

대충 옵션질좀하게 중간 것 좀 알려달라고 했더니 아래는 추천하는군요. 450b은 top-tier라고 하니 맘접습니다.

Middle Model Between 30B and 450B
For a “middle” option that provides high-performance coding capabilities without the massive requirement of 450B, the best options are: 

  • Qwen3.5-35B-A3B (Agentic/Flash): Highly regarded for its performance, often acting as a “gamechanger” for local agentic coding tasks while being runnable on smaller hardware than the 480B.
  • Qwen3-Coder-Next 80B: A high-parameter, mid-sized model that balances performance with better accessibility compared to the top-tier 450B models. RedditReddit +2

Good Middle Model Selection 

  • Best High-Performance Mid-sized: Qwen3.5-35B-A3B.
  • Best Balance of Size/Power: Qwen3-Coder-Next 80B. RedditReddit +2

These models are suitable for complex engineering tasks such as those in the SWE-Bench, offering strong agentic coding support

설치하는건 대동소이하고

docker exec -it ollama ollama pull qwen3.5:35b-a3b
docker exec -it ollama ollama pull qwen3-coder-next

근데 이후 설명과 비교표를 보면, 3.5는 일반 모델로 agent에 좋고, 말 잘알아듣나 봅니다. 설치도 agent임을 고려해서 동시에 돌아야할것 같아 얘기했더니 docker실행명령도 다르게 아려주는군요

docker run -d –gpus=all -p 11435:11434 -e OLLAMA_MODELS=/app/models –name qwen35_c qwen3.5:35b-a3b

80b는 코딩에 탁월하다고 하니 우선 80b로 먼저갑니다. 아.. 근데 io 에러뜨네요.. 아까 혹시나 의심해서 네트웍 연결을 모두 끊었던 것을 깜빡했습니다. 데헷… 설치 잘되네요. 세상 참 편합니다… 아.. 요즘 이거 하느라 잠 못드네요.. 자야되는데 –;;


게시됨

카테고리

작성자

태그: