您的位置: 首页> AI模型

从原理到落地：RAG 技术全解析，手把手教你搭建专属知识库

匿名上传

发布时间:2025-10-16 13:45:01

当你用 ChatGPT 查询 “2024 年最新税收政策” 时，它可能会告诉你 “我的知识截止到 2023 年 10 月”；当企业想用 AI 解答内部规章制度时，又担心敏感数据泄露 —— 这些问题，RAG 技术都能解决。

作为分析式 AI 的核心应用之一，RAG（检索增强生成）通过 “检索外部知识 + 增强模型生成” 的模式，完美弥补了大模型 “知识过时、易 hallucinate（幻觉）、隐私难保障” 的短板。今天，我们就从 RAG 的基础原理出发，拆解核心技术选型，再通过两个实战案例，带你掌握 RAG 的落地逻辑。

一、先搞懂：为什么需要 RAG？—— 大模型时代的 “知识补给站”

在 RAG 出现之前，大模型的应用开发主要依赖提示工程和模型微调，但二者都有明显局限：

提示工程：适合简单指令，但无法补充模型未训练过的新知识（如企业内部文档）；
模型微调：能注入新领域知识，但成本高（需大量标注数据 + 算力）、更新慢（改一次就要重新训一次）。

而 RAG 的核心价值，就是做大模型的 “外置知识库”—— 无需微调，只需通过实时检索外部文档，就能让模型生成更精准、更实时、更合规的答案。它的优势可以总结为 3 点：

解决知识时效性：

大模型训练数据是静态的（比如 ChatGPT 截止 2023 年 10 月），RAG 可连接实时更新的知识库（如新闻、政策文件）；

减少模型幻觉：

所有回答都基于检索到的真实文档，避免模型 “一本正经地胡说八道”；
保障数据隐私：

知识库可部署在本地 / 私有服务器，无需将敏感数据（如企业规章、医疗记录）上传至云端大模型。

简单来说：如果把大模型比作 “聪明的大脑”，RAG 就是 “精准的书架”—— 大脑再聪明，也需要书架上的书籍作为依据，才能给出靠谱答案。

二、RAG 核心原理：3 步实现 “检索 - 增强 - 生成”

RAG 的工作流程看似复杂，实则可拆解为数据预处理、检索、生成3 个核心步骤，每一步都有明确的目标和技术要点：

步骤 1：数据预处理 —— 把知识 “拆好存进书架”

这一步的目标是将原始文档（PDF、Word、图片等）处理成机器能理解的 “知识片段”，并存储到向量数据库中，相当于 “整理书架” 的过程：

文档分块（Chunking):

将长文档拆分成短片段（比如 1000 字符 / 块），既要保证每个片段语义完整，又要便于后续检索。常见策略有 “语义切片”（按句子 / 段落切分）、“滑动窗口切片”（重叠切分避免信息丢失）等；
向量化处理:

用嵌入模型（Embedding Model）将文本片段转换成向量（一串数字），向量的相似度越高，代表文本语义越相近。比如 “苹果手机价格” 和 “iPhone 售价” 的向量会非常接近；
向量存储:

将向量存入向量数据库（如 FAISS、Milvus），方便后续快速相似度检索。

步骤 2：检索阶段 —— 从 “书架” 上找到相关知识

当用户提出问题时，系统需要从向量数据库中找到最相关的知识片段，相当于 “找书”：

查询向量化：

把用户的问题也转换成向量；
相似度检索：

在向量数据库中搜索与问题向量最相似的 Top N 个文本片段（比如 Top5）；
重排序：

对检索结果再筛选（比如去掉重复片段、按相关性二次排序），确保最有用的知识被选中。

步骤 3：生成阶段 —— 结合知识给出答案

最后，将检索到的知识片段与用户问题结合，让大模型基于这些 “参考资料” 生成答案，相当于 “根据找到的书回答问题”：

上下文组装：

把问题和相关知识片段整合成结构化提示（Prompt），比如 “根据以下背景知识回答问题：知识片段 1 问题：XXX”；
模型生成：

大模型（如 DeepSeek、Qwen）基于增强后的上下文生成答案，确保回答完全来自检索到的知识，不凭空捏造。

三、关键技术选型：Embedding 模型、向量数据库怎么选？

RAG 的效果好不好，很大程度上取决于 “向量化” 和 “检索” 的质量，这两步的技术选型至关重要。

1. Embedding 模型：选对模型，检索准一半

Embedding 模型负责将文本转换成向量，不同模型的效果差异很大。根据文档语言和场景，可分为 4 类：

通用文本模型：

比如智源的 BGE-M3（支持 100 + 语言，长文本处理能力强）、OpenAI 的 text-embedding-3-large（英文表现优秀）；
中文优化模型：

比如 xiaobu-embedding-v2（中文语义理解精准）、M3E-Base（轻量，适合本地部署）；
指令驱动模型：

比如阿里云的 gte-Qwen2-7B-instruct（擅长处理复杂指令，支持代码 + 文本跨模态检索）、微软的 E5-mistral-7B（Zero-shot 任务表现好）；
多模态模型

比如 OpenAI 的 CLIP（支持文本 + 图像跨模态检索，比如用 “万圣节海报” 检索相关图片）。

选型建议：中文场景优先选 M3E-Base 或 xiaobu-embedding-v2；复杂指令任务选 gte-Qwen2-7B-instruct；多模态（图文结合）选 CLIP。

2. 向量数据库：平衡效率与成本

向量数据库负责存储和检索向量，常用选型对比：


数据库	优势	劣势	适用场景
FAISS	轻量、开源、检索速度快	无完整数据管理功能（如权限）	本地测试、小规模项目
Milvus	支持大规模数据、高可用	部署复杂、需要一定运维成本	企业级项目、海量数据
ChromaDB	易用、支持多模态数据	性能略逊于 Milvus	快速原型开发、中小规模项目

选型建议：本地实战用 FAISS（上手快），生产环境用 Milvus（稳定可靠）。

四、实战案例 1：用 DeepSeek+FAISS 搭建本地知识库

如果你想快速搭建一个能检索 PDF 文档的本地知识库，只需 4 步，代码可直接复用：

步骤 1：准备工具与数据

安装依赖库：

pip install PyPDF2 langchain sentence-transformers faiss-cpu；

准备 PDF 文档（比如企业规章制度、技术手册），这里以 “员工绩效考核办法.pdf” 为例。

步骤 2：提取 PDF 文本并分块

from PyPDF2 import PdfReader
from langchain.text_splitter import RecursiveCharacterTextSplitter
# 读取PDF并提取文本
def extract_pdf_text(pdf_path):
pdf_reader = PdfReader(pdf_path)
text = ""
for page in pdf_reader.pages:
text += page.extract_text() or ""
return text
# 文本分块（语义切片，避免断句）
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=1000,  # 每块1000字符
chunk_overlap=200,  # 重叠200字符，避免信息丢失
separators=["nn", "n", ".", " "]  # 优先按段落、句子切分
)
pdf_text = extract_pdf_text("员工绩效考核办法.pdf")
text_chunks = text_splitter.split_text(pdf_text)

步骤 3：向量化并构建向量数据库

from langchain_community.embeddings import DashScopeEmbeddings
from langchain_community.vectorstores import FAISS
# 加载Embedding模型（用阿里云的text-embedding-v1）
embeddings = DashScopeEmbeddings(
model="text-embedding-v1",
dashscope_api_key="你的API密钥"  # 需在阿里云百炼申请
)
# 构建FAISS向量数据库
db = FAISS.from_texts(text_chunks, embeddings)
# 保存数据库，下次可直接加载
db.save_local("faiss_pdf_db")

步骤 4：检索并生成答案

from langchain_community.llms import Tongyi
from langchain.chains.question_answering import load_qa_chain
# 加载大模型（DeepSeek-v3）
llm = Tongyi(model_name="deepseek-v3", dashscope_api_key="你的API密钥")
# 加载问答链（stuff模式：直接将知识片段传入模型）
chain = load_qa_chain(llm, chain_type="stuff")
# 用户问题
query = "绩效的等级？"
# 检索相关知识
docs = db.similarity_search(query, k=3)  # 取Top3相关片段
# 生成答案
response = chain.run(input_documents=docs, question=query)
print(response)
# 输出结果：根据文件内容，返回绩效的等级...

这个案例能快速实现本地 PDF 检索，适合企业内部规章查询、个人学习资料检索等场景。

五、实战案例 2：医疗辅助诊断系统 —— 多模态场景怎么玩？

如果需要处理图文结合的场景（比如用户问 “某种疾病的典型影像特征”），普通 RAG 就不够了，需要多模态 RAG。医疗辅助诊断系统的案例就是典型：

场景需求

支持文本问答（如 “疾病诊断标准”“治疗方案推荐”）；
支持图像检索（如 “某种疾病的影像图片对比”）；
所有回答必须来自权威医学文献、临床指南，避免误诊风险。

技术选型

文档处理：

用 PyMuPDF 处理医学 PDF 文献、python-docx 处理病历文档、Tesseract OCR 识别影像报告中的文字；
多模态 Embedding：

文本用 text-embedding-v4（1024 维向量），图像用 CLIP 模型（512 维向量，支持文本 - 图像跨模态检索）；
向量数据库：

FAISS 分别存储文本向量和图像向量；
大模型：

Qwen-turbo 生成专业的医学建议。

核心流程

数据预处理：

文本：拆分医学文献、病历中的文本和表格（表格转 Markdown），向量化后存入文本索引；
图像：提取影像图片，用 CLIP 生成图像向量，存入图像索引，同时用 OCR 提取影像报告中的文字（比如影像描述、诊断结论）；

混合检索：

文本查询（如 “心脏病治疗方案”）：直接检索文本索引；
图像查询（如 “肺癌的 CT 影像特征”）：触发图像检索，用 CLIP 将 “肺癌 CT 影像特征” 转换成文本向量，再检索图像索引；

答案生成：

文本回答：结合检索到的文本片段生成专业解答（如 “根据最新临床指南，心脏病治疗方案包括药物治疗、介入治疗和手术治疗，具体选择需根据患者病情评估……”）；
图像回答：返回相关影像图片路径并标注关键特征（如 “相关影像图片路径：xxx，图中高亮部分为肺癌典型的磨玻璃影特征……”）。

六、RAG 常见问题：如何提升检索和回答质量？

很多人搭建 RAG 后会遇到 “检索不到相关知识”“回答有幻觉” 等问题，这里分享 3 个关键优化技巧：

1. 数据准备阶段：提升知识质量

数据清洗：

删除重复、过时、矛盾的信息（比如旧版医学指南）；
敏感信息处理：

对患者隐私数据脱敏，避免泄露；
切片策略优化：

长文档用 “滑动窗口切片”（重叠率 20%-30%），结构化文档（如医学手册）用 “层次切片”（按标题 / 章节切分）。

2. 检索阶段：提高召回准确率

查询转换：

模糊问题扩展成明确查询，比如用户问 “如何治疗感冒”，扩展为 “普通感冒的治疗方法 + 特殊情况（如孕妇、儿童）的注意事项”；
混合检索：

结合关键词检索（如 “药物名称”）和语义检索，避免单纯语义检索漏掉关键词匹配的内容；
重排序：

用 LLM 对检索结果二次打分，比如让模型判断 “这个片段是否能回答医学问题”，只保留分数高的片段。

3. 生成阶段：避免幻觉和格式错误

优化提示词模板：

明确要求模型 “只使用医学背景知识回答，不添加额外信息”，比如 “根据以下医学文献，详细列出心脏病治疗方案，格式为：方案名称 - 适用症状 - 具体操作步骤”；
动态防护栏：

设置规则校验答案，比如 “答案必须包含检索到的关键医学术语（如‘心肌梗死’）”“治疗方案类回答必须分点列出”，不符合规则则让模型重新生成。