您的位置: 首页> AI模型

30分钟内搞定！在本地电脑上部署属于你自己的大模型

匿名上传

发布时间:2025-11-10 13:00:02

你是不是也遇到过这样的情况：想用大模型搭建个智能客服系统，但又担心数据泄露、网络延迟，或者只是想在本机先调试测试？别担心，今天我就来带你一步步在本地电脑上部署属于你自己的大模型！无需深厚的技术背景，只要跟着做，30分钟内就能搞定！

一、先来认识一下 Ollama：本地大模型的好帮手

Ollama 是一个开源工具，专门用来在本地运行各种大型语言模型（比如 DeepSeek、千问、Mamba 等等）。你不用纠结环境配置、依赖安装，它都帮你封装好了，特别适合初学者或者快速原型开发。

官网在这里：Ollama官方网站（打开直接点击下载就行～）

二、第一步：安装 Ollama（Windows 为例）

打开 Ollama官网，点击页面上的 Download 按钮；
选择你的操作系统版本（这里以 Windows 为例），下载安装包；
双击安装，一路“下一步”就行——它自动装好，不用你选安装路径啥的；
安装完成后，打开命令行（Win+R 输入 cmd 回车），输入：

ollama

如果出现一屏说明文字，恭喜你，安装成功！

三、挑选一个适合你电脑的模型

回到 Ollama官网，点击 Models 标签，你会看到很多模型可选：

DeepSeek系列（当前挺火的开源模型）
Qwen（阿里通义千问）
Mamba（一种更新架构的模型）
Llama3（Meta开源）等等……

每个模型还有不同参数规模，比如：1.5B、7B、14B、70B等。这个“B”是“Billion”的意思，也就是10亿参数。参数越多，模型越聪明，但对电脑要求也越高。

四、怎么选模型？看你的硬件决定！

如果你不清楚该选哪个模型参数，可以参考这个建议：


模型规模	CPU	内存	硬盘空间	显卡 (GPU)	典型应用场景
1.5B	4 核	8 GB+	3 GB+	非必需。若加速，可选 4GB+ 显存	低资源设备部署、入门级试用、简单任务
7B	8 核以上	16 GB+	8 GB+	推荐 8GB+ 显存	本地开发与测试、个人爱好者、中等复杂度任务
8B	略高于 8 核	略高于 16 GB	略高于 8 GB	推荐 8GB+ (需求略高于7B)	需要比7B更高精度的轻量级生产任务
14B	12 核以上	32 GB+	15 GB+	推荐 16GB+ 显存	企业级应用、复杂问答、代码生成、高质量文本创作
32B	16 核以上	64 GB+	30 GB+	要求 24GB+ 显存	高精度专业任务、高级推理、复杂分析、专业领域应用
70B	32 核以上	128 GB+	70 GB+	需多卡并行 (如 2x 24GB 或更高)	科研机构、超高复杂度生成、尖端技术探索

补充说明与注意事项：

“以上”含义： “以上”或“+”表示这是最低起步要求。在实际部署中，尤其是希望获得更好性能（如更快的响应速度、同时处理多任务）时，超过该配置是必要且推荐的。
显存与推理速度：显卡显存决定了模型能否运行。将模型完全加载到显存中会获得最快的推理速度。如果显存不足，可以通过系统内存和硬盘进行交换（Offloading），但这会显著降低运行速度。
量化技术：通过量化（Quantization）技术（如将模型从FP16转换为INT4），可以大幅降低对显存和内存的需求（例如，70B模型经量化后可能只需单张40GB显卡即可运行），但通常会以轻微的性能损失为代价。
70B模型：该模型参数巨大，通常需要多张高端显卡（如 NVIDIA A100 / H100 80GB * 2，或 4090 24GB * 3 等组合）通过NVLink或PCIe连接进行并行计算，对硬件和技术的要求非常高。

五、下载和运行模型：一句命令搞定

选好模型后，比如你想用：

deepseek-r1:7b

就直接在命令行中输入：

第一次运行会自动下载模型文件（可能需要几分钟到几十分钟，取决于你的网速和模型大小）。完成后，你会看到命令行中出现三个箭头 >>>，意味着模型已经加载好，你可以直接在这里打字跟它对话了！

试着输入一句你好，比如：

你好，你是谁？

模型就会回答你啦～如果响应速度还行，说明你的硬件扛得住！

️ 注意：运行过程中可以打开任务管理器看看 GPU/CPU 和内存使用情况，如果卡顿可以考虑换更小模型。

六、更实用的用法：通过API接入你的应用

虽然命令行能聊天，但我们最终是要把模型接入到客服系统中去的。Ollama 支持 API 方式调用。

启动模型后，它默认会在本地开启一个服务（通常是 http://localhost:11434），你可以用代码（比如 Python、Node.js）发送请求到这个地址，就能获得模型回复。

例如使用 curl 测试一下：

curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "你好，请介绍你自己"
}'

或者用 Python 写个简单的调用示例：

import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "deepseek-r1:7b",
"prompt": "请问你们客服工作时间是？"
}
)
print(response.json()["response"])

这样你就可以把大模型集成到你自己的客服系统或者应用中啦！

常见问题和小贴士

下载慢怎么办？ Ollama 目前还没国内镜像，如果下载慢可以尝试开代理或耐心等待一下。
跑模型时显存爆了？换更小的模型（比如从7B换成1.5B），或者关闭一些其他吃显存的软件。
模型文件存在哪里？一般在 C:Users<你的用户名>.ollamamodels（Windows）或 ~/.ollama/models（Mac/Linux）