Ollama 是一个致力于让每个人都能在本地设备上自由运行大型语言模型的开源平台。它可以在 windowslinux 平台上运行,即支持 GPU ,也支持 CPU,使用起来很方便。

本文介绍了如何在ubuntu中离线部署 ollama 和大模型 qwen3

准备离线包

  1. 下载ollama
wget https://github.com/ollama/ollama/releases/download/v0.9.2/ollama-linux-amd64.tgz
  1. 准备大模型

在一台linux机器上安装好 ollama 以后,可以通过下面的命令拉取 qwen3

ollama pull qwen3

根据后面 ollama.service 的配置,可以确认模型信息在 /data/models 中。

sudo tar czvf models-offline.tar.gz -C /data models

在目标机器上恢复大模型数据

将 models-offline.tar.gz 上传到目标服务器以后,可以用以下的命令解压大模型 qwen3

tar -zxvf models-offline.tar.gz -C /data/

在目标机器上安装 ollama

  1. 解压
tar -xzf ollama-linux-amd64.tgz
  1. 为了方便使用,移动可执行文件到系统路径
sudo mv bin/ollama /usr/local/bin/
  1. 解压后,直接运行以下命令启动Ollama服务
ollama serve
  1. ollama 配置成服务,在服务器启动时自动启动:

下面是 ollama.service 文件的内容:

[Unit]
Description=Ollama Service
After=network.target

[Service]
Type=simple
User=root
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=5
Environment="PATH=$PATH"
Environment="OLLAMA_MODELS=/data/models"  # 指定模型存储路径
Environment="OLLAMA_HOST=0.0.0.0:11005"      # 指定Ollama的监听地址和端口

[Install]
WantedBy=multi-user.target
  1. 拷贝服务文件
sudo mkdir /data/models
sudo cp ollama.service /etc/systemd/system/.
  1. 启用并启动服务
# 重新加载 systemd 配置
sudo systemctl daemon-reexec
sudo systemctl daemon-reload

# 设置开机自启
sudo systemctl enable ollama

# 启动服务
sudo systemctl start ollama

验证是否成功

  • 测试服务是否正常启动
systemctl status ollama
  • 测试大模型 qwen3
curl http://localhost:11005/api/generate -d '{
  "model": "qwen3",
  "prompt": "说说万有引力"
}'

如果用 windows 的 powershell,则执行下里面的命令:

Invoke-RestMethod -Uri http://10.10.145.101:11005/api/generate -Method Post -Body '{"model": "qwen3", "prompt": "说说万有引力"}' -ContentType "application/json"
  • 测试大模型bge-m3
curl http://localhost:11434/api/embeddings -d '{
  "model": "bge-m3",
  "prompt": "测试 bge-m3 模型是否正常工作"
}'

🪐祝好运🪐