Ollama 是目前最简单、最受欢迎的本地大模型运行工具,支持一键下载和运行 DeepSeek、Llama、Qwen 等主流开源模型。
完全离线运行、无需任何 API 密钥、数据不上传云端、支持 Windows / macOS / Linux。
本文适合人群:
2026 年主流硬件最低推荐
| 模型大小 | VRAM / RAM 最低需求(量化版) | 推荐配置 | 速度预期(token/s) |
|---|---|---|---|
| 1.5B–8B | 4–8 GB | RTX 3060 6GB / 16GB 内存 | 40–100 t/s |
| 14B–32B | 10–20 GB | RTX 4070 Ti / 32GB 内存 | 25–70 t/s |
| 70B–72B | 20–40 GB(Q4_K_M / Q5_K_M) | RTX 4090 24GB 或双卡 | 15–45 t/s |
| 671B | 极高(需多卡或极致量化) | 多卡服务器 / 云主机 | 极慢或不实用 |
强烈建议优先选择 Q4_K_M 或 Q5_K_M 量化版本,速度与质量平衡最好。
验证是否成功:
在 PowerShell 或 CMD 中输入:
ollama --version
看到版本号(例如 0.5.x 或更高)即安装成功。
推荐方式(终端一键):
curl -fsSL https://ollama.com/install.sh | sh
或者去官网下载 Ollama.dmg,双击安装。
curl -fsSL https://ollama.com/install.sh | sh
建议设置开机自启(可选):
sudo systemctl enable ollama
sudo systemctl start ollama
打开终端(Windows 用 PowerShell,macOS/Linux 用 Terminal),直接输入下面命令,第一次会自动下载模型。
deepseek-r1:1.5b → ollama run deepseek-r1:1.5b
deepseek-r1:8b → ollama run deepseek-r1:8b
deepseek-r1:14b → ollama run deepseek-r1:14b
deepseek-r1:32b → ollama run deepseek-r1:32b
deepseek-r1:70b → ollama run deepseek-r1:70b
(推荐从 8b 或 14b 开始,低配友好,推理质量很高)
llama3.3:8b → ollama run llama3.3:8b
llama3.3:70b → ollama run llama3.3:70b
llama4:8b → ollama run llama4:8b (如果 2026 年已发布)
llama4:70b → ollama run llama4:70b
qwen2.5:7b → ollama run qwen2.5:7b
qwen2.5:14b → ollama run qwen2.5:14b
qwen3:8b → ollama run qwen3:8b
qwen3:32b → ollama run qwen3:32b
qwen3:72b → ollama run qwen3:72b
中文场景首选 qwen3:32b 或 qwen3:72b(量化版)。
运行后直接聊天,输入问题回车即可对话。
退出当前模型:输入 /bye 或按 Ctrl+C。
查看已下载模型列表:
ollama list
删除不需要的模型(释放空间):
ollama rm deepseek-r1:8b
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart unless-stopped \
ghcr.io/open-webui/open-webui:main
安装后:
Windows:
新建系统环境变量
OLLAMA_MODELS = D:\ollama_models
重启 Ollama 服务
Linux/macOS:
export OLLAMA_MODELS=/data/ollama_models
目前 Ollama 官方源较稳定,但可尝试社区镜像(自行搜索最新可用镜像地址)。
先导出 Modelfile:
ollama show --modelfile qwen3:8b > MyQwen.Modelfile
编辑文件,修改 SYSTEM 一行,例如:
SYSTEM """你是一个幽默风趣的北京大爷,回答问题要带点京味儿"""
然后创建新模型:
ollama create my-beijing-aye -f MyQwen.Modelfile
以后直接 ollama run my-beijing-aye 即可使用。
| 问题 | 可能原因 | 解决办法 |
|---|---|---|
| 下载卡住 / 很慢 | 网络问题 | 换时间段或用代理 |
| 模型加载失败,显存不足 | 选了太大模型 | 换 :q4_k_m 或更小版本 |
| 中文回答乱码或很差 | 用了不擅长中文的模型 | 换 qwen2.5 / qwen3 系列 |
| Open WebUI 看不到模型 | Ollama 服务没启动 | 运行 ollama list 确认 |
| 70B 模型太慢 | 量化不够或 CPU 跑 | 用 Q4_K_M 版 + GPU |
低配机(16GB 内存 + 6–8GB 显存):
deepseek-r1:8b 或 qwen2.5:7b
中配机(32GB 内存 + 12–16GB 显存):
deepseek-r1:14b / 32b 或 qwen3:32b
高配机(RTX 4090 或多卡):
qwen3:72b(Q4_K_M)或 deepseek-r1:70b
本地大模型已经非常强大,玩得开心!
如果你的硬件配置特殊,也可以告诉我,我帮你更精准推荐模型和量化版本。