Ollama 本地大模型部署指南 / 02 - 安装与环境配置

第 2 章：安装与环境配置

在你的操作系统上完成 Ollama 安装，配置 GPU 加速，验证环境就绪。

2.1 安装前检查清单

在开始安装之前，请确认以下条件：

检查项	最低要求	推荐配置
操作系统	Ubuntu 20.04 / macOS 12 / Windows 10	Ubuntu 22.04+ / macOS 14+ / Windows 11
CPU	x86_64 / ARM64	多核处理器 (4+)
内存	8 GB	16 GB+
磁盘空间	20 GB	50 GB+（SSD 推荐）
GPU（可选）	无（CPU 可运行）	NVIDIA RTX 3060+ / Apple M 系列
网络	可访问互联网	稳定宽带（首次下载模型需要）

# 快速检查系统信息
uname -a                    # 系统版本
free -h                     # 内存大小
df -h /                     # 磁盘空间
lscpu | grep "Model name"   # CPU 型号
nvidia-smi                  # NVIDIA GPU（如已安装驱动）

2.2 Linux 安装

2.2.1 一键安装（推荐）

curl -fsSL https://ollama.com/install.sh | sh

安装脚本自动完成以下操作：

1. 检测操作系统和架构
2. 下载对应版本的 Ollama 二进制文件
3. 安装到 /usr/local/bin/ollama
4. 创建 systemd 服务文件
5. 创建 ollama 用户和用户组
6. 检测 GPU 并安装对应驱动支持
7. 启动 ollama 服务

2.2.2 安装验证

# 检查版本
ollama --version
# 输出示例: ollama version 0.6.2

# 检查服务状态
systemctl status ollama

# 验证 API 是否就绪
curl http://localhost:11434
# 输出: Ollama is running

2.2.3 手动安装

如果一键脚本不适用（如企业内网环境），可以手动安装：

# 1. 下载二进制文件
curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama

# 2. 添加执行权限
chmod +x /usr/local/bin/ollama

# 3. 创建专用用户
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

# 4. 创建 systemd 服务
sudo tee /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="HOME=/usr/share/ollama"
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=default.target
EOF

# 5. 启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

2.2.4 ARM64 架构安装

# 对于 ARM64 架构（如 AWS Graviton、树莓派 4+）
curl -L https://ollama.com/download/ollama-linux-arm64 -o /usr/local/bin/ollama
chmod +x /usr/local/bin/ollama

⚠️ 注意: ARM64 平台上部分模型可能缺少优化，推理速度会较慢。

2.3 macOS 安装

2.3.1 方式一：直接下载

访问 ollama.com/download
下载 macOS 版本（.zip 文件）
解压并拖入 Applications 文件夹
首次运行时需要在「系统偏好设置 → 安全性与隐私」中允许

2.3.2 方式二：Homebrew

brew install ollama

2.3.3 启动服务

# 前台运行（调试用）
ollama serve

# 或在后台运行
nohup ollama serve > /dev/null 2>&1 &

💡 提示: macOS 上 Ollama 以菜单栏图标形式运行，可以在菜单栏中查看状态。

2.3.4 Apple Silicon 优化

Apple Silicon（M1/M2/M3/M4）芯片原集成了 Neural Engine 和统一内存架构：

芯片	统一内存	推荐最大模型
M1	8/16 GB	7B (Q4)
M1 Pro/Max	16/32/64 GB	13B-34B
M2	8/16/24 GB	7B-13B (Q4)
M2 Pro/Max/Ultra	16-192 GB	13B-70B
M3	8/16/24 GB	7B-13B (Q4)
M3 Pro/Max	18-128 GB	13B-70B
M4	16/24/32 GB	13B-34B (Q4)

# Ollama 会自动使用 Metal 加速，无需额外配置
# 验证是否使用 Metal 加速：
ollama run qwen2.5:7b "Hello" --verbose
# 输出中应包含 GPU 相关信息

2.4 Windows 安装

2.4.1 安装步骤

下载 Windows 安装程序：ollama.com/download
运行 OllamaSetup.exe
安装完成后，Ollama 以系统服务方式自动运行

2.4.2 验证安装

打开 PowerShell 或 CMD：

# 检查版本
ollama --version

# 检查服务是否运行
curl http://localhost:11434
# 或使用 PowerShell：
Invoke-WebRequest -Uri http://localhost:11434

2.4.3 WSL2 安装方式

如果你更习惯在 WSL2 中操作：

# 在 WSL2 中使用与 Linux 相同的安装命令
curl -fsSL https://ollama.com/install.sh | sh

⚠️ 注意: WSL2 中的 GPU 支持需要安装 NVIDIA CUDA on WSL。

2.4.4 Windows 环境变量配置

# 设置 Ollama 模型存储路径（默认在 C:\Users\<user>\.ollama\models）
[System.Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\ollama\models", "User")

# 设置 API 监听地址
[System.Environment]::SetEnvironmentVariable("OLLAMA_HOST", "0.0.0.0:11434", "User")

# 设置并行请求量
[System.Environment]::SetEnvironmentVariable("OLLAMA_NUM_PARALLEL", "4", "User")

2.5 GPU 配置

2.5.1 NVIDIA GPU（CUDA）

步骤一：安装 NVIDIA 驱动

# Ubuntu — 使用官方驱动管理工具
sudo apt update
sudo ubuntu-drivers devices          # 列出可用驱动
sudo ubuntu-drivers autoinstall      # 自动安装推荐驱动

# 或手动安装特定版本
sudo apt install nvidia-driver-545

# 重启后验证
nvidia-smi

预期输出：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 545.xx.xx    Driver Version: 545.xx.xx    CUDA Version: 12.3     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce RTX 3090  |   00000000:01:00.0  On |                  N/A |
| 30%   35C    P8    25W / 350W |    512MiB / 24576MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

步骤二：安装 CUDA Toolkit（可选）

💡 提示: Ollama 内置了必要的 CUDA 库，通常不需要单独安装 CUDA Toolkit。仅在编译或自定义构建时需要。

# Ubuntu — 安装 CUDA Toolkit 12.x
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-3

# 配置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

步骤三：验证 Ollama GPU 使用

# 运行模型并查看 GPU 利用率
ollama run qwen2.5:7b "你好"

# 在另一个终端监控 GPU
watch -n 1 nvidia-smi

2.5.2 AMD GPU（ROCm）

# 1. 安装 ROCm（以 Ubuntu 22.04 为例）
sudo apt update
sudo apt install wget gnupg2

# 添加 ROCm 仓库
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.0 jammy main' | sudo tee /etc/apt/sources.list.d/rocm.list

sudo apt update
sudo apt install rocm-hip-sdk

# 2. 添加用户到 render 和 video 组
sudo usermod -aG render,video $USER

# 3. 重启后验证
rocminfo

⚠️ 注意: ROCm 支持的 GPU 列表有限，请参考 ROCm 兼容性列表。目前主要支持 RX 6000/7000 系列和 Instinct 系列。

2.5.3 Apple Silicon（Metal）

Apple Silicon 设备无需额外配置，Ollama 自动使用 Metal 加速：

# 直接运行即可
ollama run qwen2.5:7b

# 查看是否使用 GPU 加速（关注输出中的 GPU 信息）
ollama run qwen2.5:7b "测试" --verbose 2>&1 | grep -i gpu

2.6 环境变量配置

Ollama 通过环境变量进行高级配置：

环境变量	默认值	说明
`OLLAMA_HOST`	`127.0.0.1:11434`	API 监听地址
`OLLAMA_MODELS`	`~/.ollama/models`	模型存储路径
`OLLAMA_NUM_PARALLEL`	`1`	并行请求数
`OLLAMA_MAX_LOADED_MODELS`	`1`	最大同时加载模型数
`OLLAMA_KEEP_ALIVE`	`5m`	模型在内存中保持时间
`OLLAMA_FLASH_ATTENTION`	`false`	启用 Flash Attention
`OLLAMA_KV_CACHE_TYPE`	`f16`	KV 缓存量化类型

配置示例

# 编辑 systemd 服务配置
sudo systemctl edit ollama

# 在 [Service] 下添加：
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_FLASH_ATTENTION=true"
Environment="OLLAMA_KEEP_ALIVE=30m"

# 重新加载并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama

2.7 模型存储路径自定义

# Linux — 修改 systemd 环境变量
sudo systemctl edit ollama
# 添加: Environment="OLLAMA_MODELS=/data/ollama/models"

# macOS — 使用 launchctl
launchctl setenv OLLAMA_MODELS /data/ollama/models

# Windows — 使用系统环境变量
# 设置 OLLAMA_MODELS=D:\models

💡 提示: 建议将模型存储在 SSD 上，可以显著缩短模型加载时间。

2.8 离线安装

在无网络环境下部署 Ollama：

# 在有网络的机器上：
# 1. 下载 Ollama 二进制文件
curl -L https://ollama.com/download/ollama-linux-amd64 -o ollama

# 2. 下载模型文件（在有网络的机器上先拉取）
ollama pull qwen2.5:7b

# 3. 打包模型文件
tar czf ollama-models.tar.gz ~/.ollama/models/

# 4. 将 ollama 和 ollama-models.tar.gz 传输到离线机器

# 在离线机器上：
# 1. 安装 Ollama
chmod +x ollama
sudo mv ollama /usr/local/bin/

# 2. 恢复模型文件
tar xzf ollama-models.tar.gz -C ~/

# 3. 启动服务
ollama serve &

2.9 防火墙配置

# 如需从局域网其他设备访问 Ollama API

# Ubuntu/Debian — ufw
sudo ufw allow 11434/tcp

# CentOS/RHEL — firewalld
sudo firewall-cmd --permanent --add-port=11434/tcp
sudo firewall-cmd --reload

# 验证端口监听
ss -tlnp | grep 11434

2.10 安装验证全流程

完成安装后，运行以下命令进行完整验证：

# 1. 检查版本
ollama --version

# 2. 检查 API
curl -s http://localhost:11434 | head -1
# 预期: Ollama is running

# 3. 拉取一个小模型测试
ollama pull qwen2.5:1.5b

# 4. 运行推理测试
ollama run qwen2.5:1.5b "1+1等于几？"

# 5. 测试 API
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:1.5b",
  "messages": [{"role": "user", "content": "你好"}],
  "stream": false
}'

# 6. 检查 GPU（如有）
nvidia-smi  # 或 rocminfo

2.11 常见安装问题

问题	原因	解决方案
`command not found: ollama`	PATH 未配置	`export PATH=$PATH:/usr/local/bin`
`ollama: permission denied`	文件权限问题	`chmod +x /usr/local/bin/ollama`
`CUDA not available`	GPU 驱动未安装	安装 NVIDIA 驱动 535+
`model loading slow`	使用了 HDD	将模型迁移至 SSD
`port already in use`	端口被占用	`kill $(lsof -t -i:11434)`
`connection refused`	服务未启动	`sudo systemctl start ollama`

2.12 本章小结

平台	安装方式	GPU 支持
Linux	`curl -fsSL https://ollama.com/install.sh \| sh`	CUDA / ROCm
macOS	官网下载 / `brew install ollama`	Metal（自动）
Windows	官网安装包	CUDA
Docker	见第 10 章	CUDA / ROCm

扩展阅读

📖 下一章: 第 3 章：模型管理 →