Ollama 本地部署 DeepSeek / Llama / Qwen 完整保姆级指南

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

前言

Ollama 是目前最简单、最受欢迎的本地大模型运行工具，支持一键下载和运行 DeepSeek、Llama、Qwen 等主流开源模型。
完全离线运行、无需任何 API 密钥、数据不上传云端、支持 Windows / macOS / Linux。

本文适合人群：

完全新手，想快速在本地跑大模型
希望同时体验 DeepSeek-R1、Llama 3.3 / 4.0、Qwen 3 / Qwen2.5 系列的用户
想搭配图形界面（Open WebUI、Chatbox 等）使用的人

2026 年主流硬件最低推荐

模型大小	VRAM / RAM 最低需求（量化版）	推荐配置	速度预期（token/s）
1.5B–8B	4–8 GB	RTX 3060 6GB / 16GB 内存	40–100 t/s
14B–32B	10–20 GB	RTX 4070 Ti / 32GB 内存	25–70 t/s
70B–72B	20–40 GB（Q4_K_M / Q5_K_M）	RTX 4090 24GB 或双卡	15–45 t/s
671B	极高（需多卡或极致量化）	多卡服务器 / 云主机	极慢或不实用

强烈建议优先选择 Q4_K_M 或 Q5_K_M 量化版本，速度与质量平衡最好。

一、安装 Ollama（三平台步骤）

Windows 安装

浏览器访问：https://ollama.com/download
点击 Download for Windows
下载 .exe 文件，双击运行安装
安装完成后开始菜单会出现 Ollama 图标（羊驼）

验证是否成功：

在 PowerShell 或 CMD 中输入：

ollama --version

看到版本号（例如 0.5.x 或更高）即安装成功。

macOS 安装

推荐方式（终端一键）：

curl -fsSL https://ollama.com/install.sh | sh

或者去官网下载 Ollama.dmg，双击安装。

Linux 安装（Ubuntu / Debian 等）

curl -fsSL https://ollama.com/install.sh | sh

建议设置开机自启（可选）：

sudo systemctl enable ollama
sudo systemctl start ollama

二、常用模型一键拉取与运行（2026 年主流标签）

打开终端（Windows 用 PowerShell，macOS/Linux 用 Terminal），直接输入下面命令，第一次会自动下载模型。

DeepSeek 系列（推理能力极强，2026 年最受欢迎）

deepseek-r1:1.5b          → ollama run deepseek-r1:1.5b
deepseek-r1:8b            → ollama run deepseek-r1:8b
deepseek-r1:14b           → ollama run deepseek-r1:14b
deepseek-r1:32b           → ollama run deepseek-r1:32b
deepseek-r1:70b           → ollama run deepseek-r1:70b

（推荐从 8b 或 14b 开始，低配友好，推理质量很高）

Llama 系列（Meta 最新开源模型）

llama3.3:8b               → ollama run llama3.3:8b
llama3.3:70b              → ollama run llama3.3:70b
llama4:8b                 → ollama run llama4:8b          （如果 2026 年已发布）
llama4:70b                → ollama run llama4:70b

Qwen 系列（中文最强，代码能力也很优秀）

qwen2.5:7b                → ollama run qwen2.5:7b
qwen2.5:14b               → ollama run qwen2.5:14b
qwen3:8b                  → ollama run qwen3:8b
qwen3:32b                 → ollama run qwen3:32b
qwen3:72b                 → ollama run qwen3:72b

中文场景首选 qwen3:32b 或 qwen3:72b（量化版）。

运行后直接聊天，输入问题回车即可对话。
退出当前模型：输入 /bye 或按 Ctrl+C。

查看已下载模型列表：

ollama list

删除不需要的模型（释放空间）：

ollama rm deepseek-r1:8b

三、推荐图形界面（新手必装）

首选：Open WebUI（最接近 ChatGPT 的体验）

确保 Ollama 已经在运行（Windows 可直接点击羊驼图标启动服务）
安装 Docker（没有的话先装 Docker Desktop）
一键启动 Open WebUI：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart unless-stopped \
  ghcr.io/open-webui/open-webui:main

浏览器打开 http://localhost:3000
首次注册账号 → 自动发现本地 Ollama 模型 → 选择模型开始使用

备选：Chatbox（纯桌面应用，简单好用）

下载地址：https://chatboxai.app/

安装后：

设置 → 模型提供者 → 选择 Ollama
本地模型列表自动出现 → 选一个即可聊天

四、进阶实用小技巧

更改模型存储路径（避免 C 盘占满）

Windows：
新建系统环境变量

OLLAMA_MODELS = D:\ollama_models

重启 Ollama 服务

Linux/macOS：

export OLLAMA_MODELS=/data/ollama_models

国内加速下载（如果默认慢）

目前 Ollama 官方源较稳定，但可尝试社区镜像（自行搜索最新可用镜像地址）。

自定义系统提示词（让模型更有个性）

先导出 Modelfile：

ollama show --modelfile qwen3:8b > MyQwen.Modelfile

编辑文件，修改 SYSTEM 一行，例如：

SYSTEM """你是一个幽默风趣的北京大爷，回答问题要带点京味儿"""

然后创建新模型：

ollama create my-beijing-aye -f MyQwen.Modelfile

以后直接 ollama run my-beijing-aye 即可使用。

GPU 加速确认

NVIDIA：安装最新显卡驱动 + CUDA（Ollama 自动识别）
AMD：部分支持 ROCm（参考 Ollama 官网文档）
Apple Silicon：原生支持 Metal 加速

五、常见问题快速解决

问题	可能原因	解决办法
下载卡住 / 很慢	网络问题	换时间段或用代理
模型加载失败，显存不足	选了太大模型	换 :q4_k_m 或更小版本
中文回答乱码或很差	用了不擅长中文的模型	换 qwen2.5 / qwen3 系列
Open WebUI 看不到模型	Ollama 服务没启动	运行 ollama list 确认
70B 模型太慢	量化不够或 CPU 跑	用 Q4_K_M 版 + GPU

结语 · 2026 年推荐起步组合

低配机（16GB 内存 + 6–8GB 显存）：
deepseek-r1:8b 或 qwen2.5:7b

中配机（32GB 内存 + 12–16GB 显存）：
deepseek-r1:14b / 32b 或 qwen3:32b

高配机（RTX 4090 或多卡）：
qwen3:72b（Q4_K_M）或 deepseek-r1:70b

本地大模型已经非常强大，玩得开心！
如果你的硬件配置特殊，也可以告诉我，我帮你更精准推荐模型和量化版本。

39 次点击 ∙ 0 人收藏

登录后收藏

0 条回复