Ollama 本地大模型部署指南 / 02 - 安装与环境配置
第 2 章:安装与环境配置
在你的操作系统上完成 Ollama 安装,配置 GPU 加速,验证环境就绪。
2.1 安装前检查清单
在开始安装之前,请确认以下条件:
| 检查项 | 最低要求 | 推荐配置 |
|---|---|---|
| 操作系统 | Ubuntu 20.04 / macOS 12 / Windows 10 | Ubuntu 22.04+ / macOS 14+ / Windows 11 |
| CPU | x86_64 / ARM64 | 多核处理器 (4+) |
| 内存 | 8 GB | 16 GB+ |
| 磁盘空间 | 20 GB | 50 GB+(SSD 推荐) |
| GPU(可选) | 无(CPU 可运行) | NVIDIA RTX 3060+ / Apple M 系列 |
| 网络 | 可访问互联网 | 稳定宽带(首次下载模型需要) |
# 快速检查系统信息
uname -a # 系统版本
free -h # 内存大小
df -h / # 磁盘空间
lscpu | grep "Model name" # CPU 型号
nvidia-smi # NVIDIA GPU(如已安装驱动)
2.2 Linux 安装
2.2.1 一键安装(推荐)
curl -fsSL https://ollama.com/install.sh | sh
安装脚本自动完成以下操作:
1. 检测操作系统和架构
2. 下载对应版本的 Ollama 二进制文件
3. 安装到 /usr/local/bin/ollama
4. 创建 systemd 服务文件
5. 创建 ollama 用户和用户组
6. 检测 GPU 并安装对应驱动支持
7. 启动 ollama 服务
2.2.2 安装验证
# 检查版本
ollama --version
# 输出示例: ollama version 0.6.2
# 检查服务状态
systemctl status ollama
# 验证 API 是否就绪
curl http://localhost:11434
# 输出: Ollama is running
2.2.3 手动安装
如果一键脚本不适用(如企业内网环境),可以手动安装:
# 1. 下载二进制文件
curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama
# 2. 添加执行权限
chmod +x /usr/local/bin/ollama
# 3. 创建专用用户
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
# 4. 创建 systemd 服务
sudo tee /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target
[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="HOME=/usr/share/ollama"
Environment="OLLAMA_HOST=0.0.0.0:11434"
[Install]
WantedBy=default.target
EOF
# 5. 启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
2.2.4 ARM64 架构安装
# 对于 ARM64 架构(如 AWS Graviton、树莓派 4+)
curl -L https://ollama.com/download/ollama-linux-arm64 -o /usr/local/bin/ollama
chmod +x /usr/local/bin/ollama
⚠️ 注意: ARM64 平台上部分模型可能缺少优化,推理速度会较慢。
2.3 macOS 安装
2.3.1 方式一:直接下载
- 访问 ollama.com/download
- 下载 macOS 版本(.zip 文件)
- 解压并拖入 Applications 文件夹
- 首次运行时需要在「系统偏好设置 → 安全性与隐私」中允许
2.3.2 方式二:Homebrew
brew install ollama
2.3.3 启动服务
# 前台运行(调试用)
ollama serve
# 或在后台运行
nohup ollama serve > /dev/null 2>&1 &
💡 提示: macOS 上 Ollama 以菜单栏图标形式运行,可以在菜单栏中查看状态。
2.3.4 Apple Silicon 优化
Apple Silicon(M1/M2/M3/M4)芯片原集成了 Neural Engine 和统一内存架构:
| 芯片 | 统一内存 | 推荐最大模型 |
|---|---|---|
| M1 | 8/16 GB | 7B (Q4) |
| M1 Pro/Max | 16/32/64 GB | 13B-34B |
| M2 | 8/16/24 GB | 7B-13B (Q4) |
| M2 Pro/Max/Ultra | 16-192 GB | 13B-70B |
| M3 | 8/16/24 GB | 7B-13B (Q4) |
| M3 Pro/Max | 18-128 GB | 13B-70B |
| M4 | 16/24/32 GB | 13B-34B (Q4) |
# Ollama 会自动使用 Metal 加速,无需额外配置
# 验证是否使用 Metal 加速:
ollama run qwen2.5:7b "Hello" --verbose
# 输出中应包含 GPU 相关信息
2.4 Windows 安装
2.4.1 安装步骤
- 下载 Windows 安装程序:ollama.com/download
- 运行
OllamaSetup.exe - 安装完成后,Ollama 以系统服务方式自动运行
2.4.2 验证安装
打开 PowerShell 或 CMD:
# 检查版本
ollama --version
# 检查服务是否运行
curl http://localhost:11434
# 或使用 PowerShell:
Invoke-WebRequest -Uri http://localhost:11434
2.4.3 WSL2 安装方式
如果你更习惯在 WSL2 中操作:
# 在 WSL2 中使用与 Linux 相同的安装命令
curl -fsSL https://ollama.com/install.sh | sh
⚠️ 注意: WSL2 中的 GPU 支持需要安装 NVIDIA CUDA on WSL。
2.4.4 Windows 环境变量配置
# 设置 Ollama 模型存储路径(默认在 C:\Users\<user>\.ollama\models)
[System.Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\ollama\models", "User")
# 设置 API 监听地址
[System.Environment]::SetEnvironmentVariable("OLLAMA_HOST", "0.0.0.0:11434", "User")
# 设置并行请求量
[System.Environment]::SetEnvironmentVariable("OLLAMA_NUM_PARALLEL", "4", "User")
2.5 GPU 配置
2.5.1 NVIDIA GPU(CUDA)
步骤一:安装 NVIDIA 驱动
# Ubuntu — 使用官方驱动管理工具
sudo apt update
sudo ubuntu-drivers devices # 列出可用驱动
sudo ubuntu-drivers autoinstall # 自动安装推荐驱动
# 或手动安装特定版本
sudo apt install nvidia-driver-545
# 重启后验证
nvidia-smi
预期输出:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 545.xx.xx Driver Version: 545.xx.xx CUDA Version: 12.3 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 NVIDIA GeForce RTX 3090 | 00000000:01:00.0 On | N/A |
| 30% 35C P8 25W / 350W | 512MiB / 24576MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
步骤二:安装 CUDA Toolkit(可选)
💡 提示: Ollama 内置了必要的 CUDA 库,通常不需要单独安装 CUDA Toolkit。仅在编译或自定义构建时需要。
# Ubuntu — 安装 CUDA Toolkit 12.x
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-3
# 配置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
步骤三:验证 Ollama GPU 使用
# 运行模型并查看 GPU 利用率
ollama run qwen2.5:7b "你好"
# 在另一个终端监控 GPU
watch -n 1 nvidia-smi
2.5.2 AMD GPU(ROCm)
# 1. 安装 ROCm(以 Ubuntu 22.04 为例)
sudo apt update
sudo apt install wget gnupg2
# 添加 ROCm 仓库
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.0 jammy main' | sudo tee /etc/apt/sources.list.d/rocm.list
sudo apt update
sudo apt install rocm-hip-sdk
# 2. 添加用户到 render 和 video 组
sudo usermod -aG render,video $USER
# 3. 重启后验证
rocminfo
⚠️ 注意: ROCm 支持的 GPU 列表有限,请参考 ROCm 兼容性列表。目前主要支持 RX 6000/7000 系列和 Instinct 系列。
2.5.3 Apple Silicon(Metal)
Apple Silicon 设备无需额外配置,Ollama 自动使用 Metal 加速:
# 直接运行即可
ollama run qwen2.5:7b
# 查看是否使用 GPU 加速(关注输出中的 GPU 信息)
ollama run qwen2.5:7b "测试" --verbose 2>&1 | grep -i gpu
2.6 环境变量配置
Ollama 通过环境变量进行高级配置:
| 环境变量 | 默认值 | 说明 |
|---|---|---|
OLLAMA_HOST | 127.0.0.1:11434 | API 监听地址 |
OLLAMA_MODELS | ~/.ollama/models | 模型存储路径 |
OLLAMA_NUM_PARALLEL | 1 | 并行请求数 |
OLLAMA_MAX_LOADED_MODELS | 1 | 最大同时加载模型数 |
OLLAMA_KEEP_ALIVE | 5m | 模型在内存中保持时间 |
OLLAMA_FLASH_ATTENTION | false | 启用 Flash Attention |
OLLAMA_KV_CACHE_TYPE | f16 | KV 缓存量化类型 |
配置示例
# 编辑 systemd 服务配置
sudo systemctl edit ollama
# 在 [Service] 下添加:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_FLASH_ATTENTION=true"
Environment="OLLAMA_KEEP_ALIVE=30m"
# 重新加载并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama
2.7 模型存储路径自定义
# Linux — 修改 systemd 环境变量
sudo systemctl edit ollama
# 添加: Environment="OLLAMA_MODELS=/data/ollama/models"
# macOS — 使用 launchctl
launchctl setenv OLLAMA_MODELS /data/ollama/models
# Windows — 使用系统环境变量
# 设置 OLLAMA_MODELS=D:\models
💡 提示: 建议将模型存储在 SSD 上,可以显著缩短模型加载时间。
2.8 离线安装
在无网络环境下部署 Ollama:
# 在有网络的机器上:
# 1. 下载 Ollama 二进制文件
curl -L https://ollama.com/download/ollama-linux-amd64 -o ollama
# 2. 下载模型文件(在有网络的机器上先拉取)
ollama pull qwen2.5:7b
# 3. 打包模型文件
tar czf ollama-models.tar.gz ~/.ollama/models/
# 4. 将 ollama 和 ollama-models.tar.gz 传输到离线机器
# 在离线机器上:
# 1. 安装 Ollama
chmod +x ollama
sudo mv ollama /usr/local/bin/
# 2. 恢复模型文件
tar xzf ollama-models.tar.gz -C ~/
# 3. 启动服务
ollama serve &
2.9 防火墙配置
# 如需从局域网其他设备访问 Ollama API
# Ubuntu/Debian — ufw
sudo ufw allow 11434/tcp
# CentOS/RHEL — firewalld
sudo firewall-cmd --permanent --add-port=11434/tcp
sudo firewall-cmd --reload
# 验证端口监听
ss -tlnp | grep 11434
2.10 安装验证全流程
完成安装后,运行以下命令进行完整验证:
# 1. 检查版本
ollama --version
# 2. 检查 API
curl -s http://localhost:11434 | head -1
# 预期: Ollama is running
# 3. 拉取一个小模型测试
ollama pull qwen2.5:1.5b
# 4. 运行推理测试
ollama run qwen2.5:1.5b "1+1等于几?"
# 5. 测试 API
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5:1.5b",
"messages": [{"role": "user", "content": "你好"}],
"stream": false
}'
# 6. 检查 GPU(如有)
nvidia-smi # 或 rocminfo
2.11 常见安装问题
| 问题 | 原因 | 解决方案 |
|---|---|---|
command not found: ollama | PATH 未配置 | export PATH=$PATH:/usr/local/bin |
ollama: permission denied | 文件权限问题 | chmod +x /usr/local/bin/ollama |
CUDA not available | GPU 驱动未安装 | 安装 NVIDIA 驱动 535+ |
model loading slow | 使用了 HDD | 将模型迁移至 SSD |
port already in use | 端口被占用 | kill $(lsof -t -i:11434) |
connection refused | 服务未启动 | sudo systemctl start ollama |
2.12 本章小结
| 平台 | 安装方式 | GPU 支持 |
|---|---|---|
| Linux | curl -fsSL https://ollama.com/install.sh | sh | CUDA / ROCm |
| macOS | 官网下载 / brew install ollama | Metal(自动) |
| Windows | 官网安装包 | CUDA |
| Docker | 见第 10 章 | CUDA / ROCm |
扩展阅读
📖 下一章: 第 3 章:模型管理 →