Docker运行Ollama，阿里云容器仓库中转。

2025-04-14

1 一、阿里云容器仓库中转
2 二、docker运行ollama
3 三、docker ollama 运行在显卡上
4 四、nvidia 显卡安装docker虚拟化支持
5 五、注意Ollama无法并行显卡，并行可以使用vLLM
- 5.1 参数解释：

一台cpu核心非常多（100+，2.2GHz+）的物理机器，实际测试下来发现跑小尺寸大模型7b效果还是非常ok的，跑32b有些困难。

一、阿里云容器仓库中转

# 阿里云仓库登陆，提示输入密码
docker login --username=[你的邮箱] registry.cn-hangzhou.aliyuncs.com

# 将现有容器，tag打为阿里云仓库，用于推送
docker tag [ImageId] registry.cn-hangzhou.aliyuncs.com/[你的仓库]/[镜像名称]:[镜像版本号]

# 推送到阿里云仓库
docker push registry.cn-hangzhou.aliyuncs.com/[你的仓库]/[镜像名称]:[镜像版本号]

# 拉取从阿里云仓库
docker pull registry.cn-hangzhou.aliyuncs.com/[你的仓库]/[镜像名称]:[镜像版本号]

# 阿里云仓库登陆，提示输入密码

docker login --username=[你的邮箱] registry.cn-hangzhou.aliyuncs.com

# 将现有容器，tag打为阿里云仓库，用于推送

docker tag [ImageId] registry.cn-hangzhou.aliyuncs.com/[你的仓库]/[镜像名称]:[镜像版本号]

# 推送到阿里云仓库

docker push registry.cn-hangzhou.aliyuncs.com/[你的仓库]/[镜像名称]:[镜像版本号]

# 拉取从阿里云仓库

docker pull registry.cn-hangzhou.aliyuncs.com/[你的仓库]/[镜像名称]:[镜像版本号]

二、docker运行ollama

# 假设CPU这里有160个核心，允许最大占用所有CPU核心，跑32b
docker run -d \
  -v /data/ollama-32b:/root/.ollama \
  -p 11434:11434 \
  --name ollama-32b \
  --cpuset-cpus="0-159" \
  -e OLLAMA_NUM_THREADS=160 \
  -e OLLAMA_EXTRA_ARGS="--ctx-size 32768 --batch-size 1024 --threads 160 &nbsp;--no-mmap --parallel 32" \
  ollama/ollama

# 进入容器拉取想运行的尺寸的模型即可。

docker run -d \
  -v /data/ollama-7b:/root/.ollama \
  -p 11435:11434 \
  --name ollama-7b \
  --cpuset-cpus="0-159" \
  -e OLLAMA_NUM_THREADS=160 \
  -e OLLAMA_EXTRA_ARGS="--ctx-size 32768 --batch-size 1024 --threads 160 &nbsp;--no-mmap --parallel 32" \
  ollama/ollama

# docker 运行open-webui
docker run -d -p 8080:8080  -v /data/open-webui:/app/backend/data --name open-webui --restart always open-webui:latest

# 假设CPU这里有160个核心，允许最大占用所有CPU核心，跑32b

docker run -d \

-v /data/ollama-32b:/root/.ollama \

-p 11434:11434 \

--name ollama-32b \

--cpuset-cpus="0-159" \

-e OLLAMA_NUM_THREADS=160 \

-e OLLAMA_EXTRA_ARGS="--ctx-size 32768 --batch-size 1024 --threads 160  --no-mmap --parallel 32" \

ollama/ollama

# 进入容器拉取想运行的尺寸的模型即可。

docker run -d \

-v /data/ollama-7b:/root/.ollama \

-p 11435:11434 \

--name ollama-7b \

--cpuset-cpus="0-159" \

-e OLLAMA_NUM_THREADS=160 \

-e OLLAMA_EXTRA_ARGS="--ctx-size 32768 --batch-size 1024 --threads 160  --no-mmap --parallel 32" \

ollama/ollama

# docker 运行open-webui

docker run -d -p 8080:8080 -v /data/open-webui:/app/backend/data --name open-webui --restart always open-webui:latest

三、docker ollama 运行在显卡上

# 测试是否支持显卡
docker run --rm --gpus all nvidia/cuda:12.2.0-base-ubuntu20.04 nvidia-smi

# --gpu all，使用全部显卡
# --gpu device=0 使用0号显卡
docker run -d \
  --gpus '"device=1"' \
  -v /data/ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  -e OLLAMA_NUM_THREADS=0 \
  -e OLLAMA_USE_GPU=true \
  -e OLLAMA_EXTRA_ARGS="--ctx-size 32768 --batch-size 1024 --parallel 32" \
  ollama:ollama

# 测试是否支持显卡

docker run --rm --gpus all nvidia/cuda:12.2.0-base-ubuntu20.04 nvidia-smi

# --gpu all，使用全部显卡

# --gpu device=0 使用0号显卡

docker run -d \

--gpus '"device=1"' \

-v /data/ollama:/root/.ollama \

-p 11434:11434 \

--name ollama \

-e OLLAMA_NUM_THREADS=0 \

-e OLLAMA_USE_GPU=true \

-e OLLAMA_EXTRA_ARGS="--ctx-size 32768 --batch-size 1024 --parallel 32" \

ollama:ollama

四、nvidia 显卡安装docker虚拟化支持

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
sudo yum install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

sudo yum install -y nvidia-container-toolkit

sudo nvidia-ctk runtime configure --runtime=docker

sudo systemctl restart docker

五、注意Ollama无法并行显卡，并行可以使用vLLM

docker run -d \
  --gpus all \
  --name vllm-gpt20b \
  -p 8000:8000 \
  vllm/vllm-openai:latest \
  --model gpt-oss-20b \
  --dtype float16 \
  --tensor-parallel-size 2 \
  --max-model-len 32768 \
  --swap-space 16

docker run -d \

--gpus all \

--name vllm-gpt20b \

-p 8000:8000 \

vllm/vllm-openai:latest \

--model gpt-oss-20b \

--dtype float16 \

--tensor-parallel-size 2 \

--max-model-len 32768 \

--swap-space 16

参数解释：

--gpus all
把两张 3090 显卡都暴露给容器。
--model gpt-oss-20b
你要加载的模型名字（需要在容器内能找到，比如 HF 模型目录或预拉取）。
--dtype float16
用 FP16 节省显存，20B 模型单卡 24G 顶不住，必须多卡 FP16 才能跑。
--tensor-parallel-size 2
关键参数，把模型切分到两张 GPU 上。
--max-model-len 32768
设置上下文长度为 32K（你之前 Ollama 配置的 --ctx-size 32768）。
--swap-space 16
分配 16GB CPU 内存作为显存不足时的 swap buffer（防止 OOM）。

Docker运行Ollama，阿里云容器仓库中转。

2025-04-14

一、阿里云容器仓库中转

二、docker运行ollama

三、docker ollama 运行在显卡上

四、nvidia 显卡安装docker虚拟化支持

五、注意Ollama无法并行显卡，并行可以使用vLLM

参数解释：

发表回复取消回复

声明

业务

标签

一、阿里云容器仓库中转

二、docker运行ollama

三、docker ollama 运行在显卡上

四、nvidia 显卡 安装docker虚拟化支持

五、注意Ollama无法并行显卡，并行可以使用vLLM

参数解释：

发表回复 取消回复

声明

业务

标签

四、nvidia 显卡安装docker虚拟化支持

发表回复取消回复