耽梦小说最新版
24.18M · 2025-11-13
尽管大语言模型(LLM)在自然语言处理中表现卓越,但其实际应用仍受三大核心问题制约:生成内容的不可靠性(幻觉)、有限上下文处理能力,以及潜在的数据安全风险,下面介绍一下
大语言模型(LLM)的“幻觉”是指模型生成与输入无关、逻辑错误或完全虚构的信息。这种现象的根源在于:
尽管现代 LLM(如 GPT-4、Claude)的上下文窗口已扩展至 100K+ Token,但长文本处理仍面临挑战:
LLM 在训练和应用中可能泄露敏感信息,主要风险包括:
为了弥补以上这些不足,RAG(检索增强生成)技术应运而生
检索增强生成(Retrieval-Augmented Generation,简称RAG)系统的核心在于其索引架构,它决定了系统如何高效地存储、检索知识并用于生成任务。一个完整的RAG索引架构如下
基于以上RAG集成关系图,分为以下三个模块简要阐述
1. 文档解析
文档解析技术的本质在于将格式各异、版式多样、元素多种的文档数据,包括段落、表格、标题、公式、多列、图片等文档区块,转化为阅读顺序正确的字符串信息。高质量的文档解析能够从各种复杂格式的非结构化数据中提取出高精准度的信息,对 RAG 系统最终的效果起决定性的作用。RAG应用场景中涉及的数据类型通常有:PDF、TXT、Word、PPT、Excel、CSV、Markdown、XML、HTML以及关系型和非关系型数据库等。
文档解析技术架构图如下:
文档解析在RAG系统中的核心任务可以总结为两个关键层次:文件类型识别解析和内容深度分层解析
文件内容识别解析:
文档解析作为RAG系统的前端核心处理模块,承担着将原始数据转化为可计算知识的关键使命。其核心任务首先体现在对多源异构文档的智能识别与适配解析上,系统需要精准识别PDF、Word、Excel等数十种常见文档格式,并针对每种格式的特点调用专用解析引擎。例如,面对扫描版PDF时需启动OCR识别,处理复杂Word文档时要保留样式结构,解析Excel则需处理公式计算和多Sheet关联等特性。
内容深度分层解析:
在完成基础格式解析后,系统会进入更深度的内容解构阶段。这一过程需要精准地将文档内容分解为物理布局、逻辑层级和语义标注三个层次。物理层通过坐标分析还原原始排版中的文本块、表格区域和图文关系;逻辑层则重建标题层级、列表结构和章节关联;最终的语义层通过实体识别、主题分析等技术,为原始文本注入机器可理解的上下文信息。这种层层递进的解析策略,确保了非结构化数据最终能转化为保留原始语义且适合向量化处理的标准化知识单元,为RAG系统的检索与生成奠定坚实基础。
文档数据(Documents)经过解析后,通过分块技术将信息内容划分为适当大小的文档片段(chunks),从而使 RAG 系统能够高效处理和精准检索这些片段信息。
1. 分块的作用
2. 分块对 RAG 系统的影响
3. 分块的核心挑战:如何确定块大小
块过大:
向量难以捕捉细节,计算成本增加。
适用于需要宽泛上下文的场景(如文档摘要、主题检测)。
块过小:
可能丢失上下文,导致语义碎片化。
适用于细粒度分析任务(如情感分析、特定短语检索)。
分块策略的核心要素可以归纳为以下三个关键维度:
这三个维度的不同组合形成了多样化的分块策略,每种策略都有其独特的适用场景。当前主流的文档分块方法主要包括以下六种类型:
每种策略的选择需权衡文本类型、任务需求和计算成本。实际应用中需要通过实验确定最优分块方案。
在 RAG 系统中,向量数据库起着重要的作用。其主要功能在于索引过程中,建立高效的向量索引结构,以便快速定位与查询相关的向量数据。在查询阶段,系统将输入的提示转化为向量表示形式,并从数据库中检索出与之最相关的向量及其对应的分块数据。通过这种索引和检索机制,检索到的向量为生成模型提供了必要的上下文信息,使模型能够依据当前的语义上下文生成更加精准和相关的响应。
当前主流的 RAG 检索方式主要采用向量检索,通过语义相似度来匹配文本切块,这种方法在Embedding Model小节已经介绍过了。然而,向量检索并非万能,它在某些场景下无法替代传统关键词检索的优势。
例如,当你需要精准搜索某个订单 ID、品牌名称或地址,或者搜索特定人物或物品的名字(如周杰伦、 小米14)时,向量检索的准确性往往不如关键词检索。此外,当用户输入的问题非常简短,仅包含几个单词时,比如搜索缩写词或短语(如 RAG、LLM),语义匹配的效果也可能不尽理想。
这些正是传统关键词检索的优势所在。关键词检索(Keyword Search)在几个场景中表现尤为出色:精确匹配,如产品名称、姓名、产品编号;少量字符的匹配,用户习惯于输入几个关键词,而少量字符进行向量检索时效果可能较差;以及低频词汇的匹配,低频词汇往往承载了关键意义,如在“你想跟我去喝咖啡吗?”这句话中,“喝”“咖啡”比“你”“吗”更具重要性。
在上述案例中,虽然依靠关键词检索可以精确找到与“订单 12345”匹配的特定信息,但它无法提供与订单相关的更广泛上下文。另一方面,语义匹配虽然能够识别“订单”和“配送”等相关概念,但在处理具体的订单 ID 时,往往容易出错。
混合检索(Hybrid Search)通过结合关键词检索和语义匹配的优势,可以首先利用关键词检索精确定位到“订单 12345”的信息,然后通过语义匹配扩展与该订单相关的其他上下文或客户操作的信息,例如“12 开头的订单、包装破损严重”等。这样不仅能够获取精确的订单详情,还能获得与之相关的额外有用信息。
在 RAG 检索场景中,首要目标是确保最相关的结果能够出现在候选列表中。向量检索和关键词检索各有其独特优势,混合检索通过结合这多种检索技术,弥补了各自的不足,提供了一种更加全面的搜索方案。
混合检索是指在检索过程中同时采用多种检索方式,并将各类检索结果进行融合,从而得到最终的检索结果。混合检索的优势在于能够充分利用不同检索方式的优点,弥补各自的不足,从而提升检索的准确性和效率。下图展示了混合检索的流程:
混合检索的本质在于融合多种检索方式的优势,其具体实现并不局限于特定的技术组合。以常见的"向量检索+关键词检索"为例,这只是混合检索的一种典型模式,实际上系统可以灵活集成各类检索算法。例如,在更复杂的场景下,可以结合知识图谱技术(如graphRAG)进行实体关系检索,再与向量语义检索协同工作,这种多模态的检索策略同样属于混合检索的范畴。不同检索方式的组合选择应当基于具体业务需求,通过优势互补来提升整体检索效果。
重排序(Reranking)的目的是将混合检索的结果进行整合,并将与用户问题语义最契合的结果排在前列。
下图中仅仅混合检索,由于缺乏有效的排序,我们期望的结果位于第一和第四位,尽管依然可以被检索到,但理想情况下,如果检索方式更为精确,该结果应该被优先排序在前两位。
在这个案例中,我们通过重排序技术成功找到了与问题语义最契合的结果。系统评分显示,“订单 12345 于 2023 年 8 月 15 日在上海,客户不满意。”与“该 12 开头的订单客户不满意的地方在于包装破损严重。”这两个文档块的相关性分别为 0.9 和 0.8,排序为第一和第二位。
重排序技术在检索系统中扮演着至关重要的角色。即使检索算法已经能够捕捉到所有相关的结果,重排序过程依然不可或缺。它确保最符合用户意图和查询语义的结果优先展示,从而提升用户的搜索体验和结果的准确性。通过重排序,检索系统不仅能找到相关信息,还能智能地将最重要的信息呈现在用户面前。
重排序优势:
在RAG系统的生成阶段,核心流程是将用户查询与检索到的相关信息通过特定指令组合后输入大语言模型,由模型处理后生成最终回复。这一过程看似简单,但有两个关键因素直接影响系统的最终表现:
这两个环节相辅相成,共同决定了RAG系统最终的响应质量和用户体验。在实际应用中,往往需要根据具体需求对这两个方面进行持续调优和平衡。
大模型的选择直接影响RAG系统的核心能力。在选型时需要综合评估模型的知识广度、推理深度、响应速度等关键指标。通用大模型如Deepseek具备较强的语义理解和泛化能力,适合开放域问答场景;而垂直领域模型经过专业数据微调后,在特定领域往往表现更精准。同时,70亿参数左右的中等规模模型经过优化后,通常能在效果与成本间取得较好平衡。
提示词工程(Prompt Engineering)是优化生成式AI模型输入输出的关键技术,其核心在于通过精心设计的提示词(Prompt)充分激发语言模型的潜力。作为连接用户需求与AI能力的桥梁,提示词工程通过结构化输入引导模型更精准地完成各类任务,包括内容创作、代码生成、智能对话等。
一个高效的提示词通常包含四个关键要素:
这种结构化设计能显著提升模型输出的相关性和可用性,使AI生成结果更符合实际应用需求。随着大模型技术的发展,提示词工程已成为提升AI系统性能的重要方法论。