Docker运行Ollama,阿里云容器仓库中转。

Docker运行Ollama,阿里云容器仓库中转。

一台cpu核心非常多(100+,2.2GHz+)的物理机器,实际测试下来发现跑小尺寸大模型7b效果还是非常ok的,跑32b有些困难。

一、阿里云容器仓库中转

二、docker运行ollama

 

三、docker ollama 运行在显卡上

 

四、nvidia 显卡 安装docker虚拟化支持

五、注意Ollama无法并行显卡,并行可以使用vLLM

参数解释:

  • --gpus all
    把两张 3090 显卡都暴露给容器。

  • --model gpt-oss-20b
    你要加载的模型名字(需要在容器内能找到,比如 HF 模型目录或预拉取)。

  • --dtype float16
    用 FP16 节省显存,20B 模型单卡 24G 顶不住,必须多卡 FP16 才能跑。

  • --tensor-parallel-size 2
    关键参数,把模型切分到两张 GPU 上。

  • --max-model-len 32768
    设置上下文长度为 32K(你之前 Ollama 配置的 --ctx-size 32768)。

  • --swap-space 16
    分配 16GB CPU 内存作为显存不足时的 swap buffer(防止 OOM)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注