您的位置: 首页> AI模型

工程师学AI之起始篇：理论与实践学习计划

匿名上传

发布时间:2025-11-23 12:15:01

1.背景

随着22年底chatgpt的重磅推出，大语言模型（LLM）发展迅猛，从最初的“大号文本预测器”（会听，会说）一步步成长为如今能处理复杂任务的“智能体”基石（会想、会做）。25年初deepseek点燃了国人对大模型的热情，不知您是否好奇Transformer、自注意力self-attention、LLM、Token、向量化Embedding、涌现、Pre-training、有监督微调SFT、RLHF、MOE、MLA、多模态、思维链CoT、FunctionCalling、RAG、MCP协议、AIAgent、A2A协议等概念层出不穷，到底在解决什么问题？

作为起始篇将与您一起从宏观上理解下大模型的基本脉络，并基于当下理解和认知，从工程师视角制定学习计划，欢迎关注交流讨论！

该系列将从工程师视角，一步步去学习并理解大模型相关概念，再到会用，深入理解，掌握原理，动手实践，解决实际问题。

1）概念：这些层出不穷的概念背后到底在解决什么问题？

2）会用：除了知识问答与会话，还能用大模型解决什么问题？有什么局限性？

3）理解：大语言模型vs工程开发在思维方式上有什么区别？

4）原理：大语言模型到底是如何工作的？

5）动手实践：如何从0开始构建大语言模型？

6）实际问题：如何用大语言模型创造性解决业务场景实际问题？

7）学习计划：工程师如何一步步掌握大模型背后的理论知识、算法模型？

2.概念：什么是LLM大语言模型？

大语言模型（Large Language Model, LLM）是一种使用大量文本数据训练的深度学习模型，其核心能力是可以理解和生成人类语言。大模型 = 海量数据 + 深度学习算法 + 超强算力。人工智能AI、机器学习、深度学习、大语言模型LLM、生成式人工智能GenAI关系大致如下：

近几年大语言模型演变历程大致如下：

3.会用：大语言模型能做什么？

3.1应用场景

大模型（Large Language Models, LLMs）的应用非常广泛，并且正以前所未有的速度渗透到各个行业。它们不仅能处理自然语言任务，还能理解和生成代码、进行多模态交互，甚至作为智能体（Agent）自主决策和执行任务。


应用领域	具体场景	核心价值/案例
医疗与健康	智能问诊与分诊、医学影像分析、药物研发与挖掘、健康管理、医院运营优化	加速药物研发进程，提升诊疗效率，优化患者服务体验
软件开发	代码生成与补全、Bug调试与修复、代码解释、不同编程语言转换、自动化测试	提升开发效率，降低代码缺陷，加速学习进程
教育与科研	个性化辅导、作业批改、语言学习、科学计算、论文摘要与翻译	因材施教，提升学习效率，辅助科学研究
工业与制造	智能决策支持、生产流程优化、质量控制、 Predictive Maintenance（预测性维护）、供应链管理、研发设计	提升生产效率，降低故障率，缩短研发周期，优化能耗
能源与电力	虚拟电厂调度、电网负荷预测、能源交易、无功补偿优化、电能质量管理	提升电网稳定性，促进新能源消纳，实现精准的需求响应和调度
内容创作与媒体	新闻撰稿、剧本创作、营销文案、翻译、摘要生成	提升内容生产效率和创意多样性
客户服务与营销	智能客服、个性化推荐、市场洞察分析、销售话术生成	提升客户满意度，降低人力成本，实现精准营销
法律司法	法律条文检索与解读、案例分析与裁判文书生成、合同审查与智能起草、案件焦点识别与证据分析	提升案件处理效率和准确性，降低人工工作负荷
航天高科技	在轨操作辅助、故障诊断与处置、航天员心理支持、天地协同智能问答	为在轨工作提供智能化、专业化支持
金融与风控	智能投顾、风险评估、反欺诈、信贷审批、市场行情分析	提升风险控制能力，优化投资决策，自动化业务流程
个人助理与娱乐	日程管理、信息检索、旅行规划、游戏NPC对话生成、写诗作画	提升生活和工作效率，提供个性化娱乐体验

3.2软件开发场景：AI Coding给想法插上翅膀？

随着大模型辅助编码技术发展，即使您不会编程，也可以借助AICoding把想法快速转换成可运行的代码。这里用一个生活中的案例来看看AI如何给想法插上翅膀？从0实现一个微信小程序原型系统基本在小时级别就能完成。

3.2.1原始需求：儿童生病体温用药症状观测

不知宝爸宝妈们在孩子生病发烧期间无比焦虑的场景，恨不得时刻能看看体温是不是降下来了？用退烧药之后能够持续多久？下面是我自己小孩3岁左右一段发烧记录：晚上到凌晨，我和爱人轮流测量体温，用药，观察症状变化情况。

3.2.2AICoding助您0编码实现微信小程序

首先，我没有写过多少前端代码和微信小程序，借助AI编程工具可以帮助我们从生活中实际场景出发—>到想法—>交互图生成—>AI辅助架构、数据库、API设计—>AI辅助生成前后端代码—>原型系统部署调试。

完整的小程序界面及实现过程这里不做赘述（目前开发体验版本），后续文章详细记录下完整的从想法到UED设计，及设计编码实现过程。有兴趣的朋友可以关注讨论。

4.理解：大语言模型工作原理？

4.1工程vs算法：演绎归纳思维差异

归纳与演绎是人类认识事物的两种思维方法，工程与算法是这两种思维方式的典型应用场景。归纳与演绎在工程和大模型算法中的分布是一种有趣的镜像关系：

1）传统工程立足于演绎的确定性，用归纳来应对现实世界的不完美。对于AI研究者而言，明白“演绎”框架（如算法、架构）的突破，才能为更强大的“归纳”能力搭建舞台。

2）大模型算法立足于归纳的概率性，用演绎来框架其学习和约束其行为。对于工程师而言，明白大模型的“归纳”本质，就不会期望它像传统软件一样绝对可靠，从而能更好地设计容错和验证流程。

4.1.1工程思维：演绎为主，归纳为辅

演绎法核心思想：从一般性前提推导出特殊性结论。如果前提为真，且推理过程正确，则结论必然为真。工程化思维解决问题的方式是演绎推导为主，归纳为辅。

推理方向：从一般到特殊（Top-Down）。

关键词：规则、公理、定理、逻辑推导、确定性。

应用场景：软件设计过程（PRD-交互-视觉-架构设计-编码实现）、传统工程（如土木、机械、电子工程）的核心是确定性和可靠性，其思维方式高度依赖演绎法。

严格的设计规范：工程师使用这些定律，结合具体需求（小前提），通过数学计算和逻辑推导，设计出桥梁、芯片或电路（结论）。这个过程是高度演绎的。

可预测性：因为基于确定性定律，工程系统的行为在理论上是可以精确预测的。一座桥能承重多少，在建造之前就可以通过计算得知。

小结：在传统工程中，演绎是“设计师”，负责基于属性计算和工程设计完成确定性需求的构建；归纳是“测试/质检员”和“优化师”，负责验证和调优。

4.1.2算法思维：归纳为主，演绎为辅

归纳法核心思想：从大量特殊性观察中总结出一般性规律或模式。结论是可能为真的，但不保证绝对正确。大模型算法解决问题的方式是归纳为主，演绎为辅。

推理方向：从特殊到一般（Bottom-Up）。

关键词：模式、趋势、概率、统计、不确定性。

应用场景：大模型（如GPT、BERT等）的本质是从数据中学习统计规律，其核心范式是归纳法。

1）学习过程就是归纳：大模型不预先输入“语法规则”或“世界知识”（大前提）。它通过在海量文本数据（数十亿个特殊样本）中寻找词与词、句与句之间的统计关联（如共现频率、注意力权重），归纳出一套内部的、隐含的“语言模型”和“世界模型”。这个过程完全是从特殊到一般。

2）概率性输出：模型的输出不是确定的真理，而是基于其归纳出的统计分布，计算出的最可能的词序列。它是“可能为真”的，这正是归纳法的特征。

3）涌现能力：模型表现出的推理、创作等复杂能力，并非由程序员显式编码（演绎），而是从数据中归纳涌现出来的，这超出了设计者的精确预期。

演绎的辅助角色：

1）算法框架设计：Transformer的架构、反向传播算法、损失函数等，是研究人员基于数学和计算机科学原理演绎设计出来的。这为归纳学习提供了舞台和规则。

2）提示工程与思维链：用户通过设计精妙的提示（Prompt），试图引导模型激活其内部归纳出的知识，并按照一种类似演绎的逻辑链（Chain-of-Thought）来生成答案。这是在用演绎的形式去驾驭归纳得到的能力。

3）规则约束：在模型输出端，会使用演绎性的规则进行过滤和约束，例如内容安全过滤、格式要求等，以确保输出符合某些确定性标准。

小结：在大模型算法中，归纳是“学生”，负责从数据中学习知识；演绎是“教练”和“裁判”，负责设计学习方法和设定输出规则。其分布是“归纳为主，演绎为辅”。

最终，最强大的系统将是那些能精巧融合两种范式的系统：用演绎法构建可靠框架，用归纳法汲取数据智慧，从而同时具备严谨性和灵活性。

4.2大语言模型工作原理

LLM的工作原理可以简单理解为一个“基于概率的超级文本生成器”。虽然它们本质上在于“预测下一个词”，并需要大量文本进行训练，基于数十亿词汇训练的神经网络，不同于传统的人类编写的软件，没人完全理解其内部机制。大模型训练到推理的大致过程如下。

5.实践：如何从0构建大语言模型？

为什么我们应该构建自己的 LLM？从头开始编码一个 LLM 是理解其工作机制和局限性的绝佳练习。同时，这也使我们具备了对现有开源 LLM 架构进行预训练或微调的知识，以便将其应用于我们特定领域的数据集或任务。

简化的构建流程：篇幅原因这里不做赘述，欢迎关注，后面章节深入学习并拆解。

海量数据 → Transformer架构 + 预训练（自监督学习） → 基座模型 → 有监督微调（SFT） + 对齐优化（RLHF/DPO） → 对话/指令模型。

6.学习计划

为了进一步深入理解大模型工作原理并应用到工程实践中，整理如下学习计划：从数学理论—>编程工具python框架：NumPy/Pandas/PyTorch—>模型与算法理论知识—>工程实践。关键原则：

1）每阶段必须产出可运行代码（拒绝纯理论学习）

2）80%时间投入工程实践（数据处理/部署/监控）

3）成本意识贯穿全程（GPU使用/延迟/吞吐量）

6.1阶段1（1-2周）：数学理论vs大模型

数学知识是理解大模型原理的必备内功，回顾下大学和研究生期间数学知识？

1）线性代数：定义了模型的结构和表示方式，用矩阵和向量表示一切，向量、矩阵和张量运算是数据在模型中流动的语言。线性代数提供了如何用“数字块”来表示和操作“概念”的基本语法。

2）概率论：定义了模型的目标和行为方式，预测下一个词的概率分布，理解损失函数、模型评估和不确定性的关键。

3）微积分：定义了模型的学习算法，如何通过计算梯度来优化矩阵中的参数，以更好地完成概率预测的目标）。理解梯度、导数，这是模型优化的基础。

6.2阶段2（1-2周）：编程工具与环境

搭建工程化环境 + 建立AI直觉 + 掌握PyTorch工程化开发，具备CV/NLP基础项目能力。

掌握python语言及NumPy (科学计算)、Pandas (数据处理)，掌握PyTorch。

了解Hugging Face (模型中心)。

利用阿里云百炼搭建云端环境：基于 PAI DSW 准备在线学习环境

6.3阶段3（6-8周）：模型与算法 (核心大脑)

6.3.1机器学习及深度学习基础知识（2-3周）

掌握机器学习、深度学习及NLP基础概念，理解回归、分类、过拟合与欠拟合等基本概念。掌握神经网络(NN)、卷积网络(CNN)、循环网络(RNN)等经典结构。监督学习 vs. 无监督学习，线性回归、逻辑回归、决策树、SVM等经典算法，模型评估方法。

1）书籍：《机器学习》《深度学习》

2）在线课程：李沐《动手学深度学习》（PyTorch版），学习神经网络基础（前向传播、反向传播）、CNN、RNN/LSTM、激活函数、优化算法。

3）实践：使用PyTorch练习所学内容，搭建简单模型。

6.3.2大模型核心技术（4-6周）

重中之重，深入理解Transformer架构及大模型的原理、训练和微调，所有现代AI大模型（如GPT、Llama）的基石，必须深入理解其自注意力Self-Attention机制、Encoder-Decoder结构、位置编码，深度理解Transformer架构论文：《Attention Is All You You Need》，视频学习解读。

1）开源项目：阅读deepseek、qwen等模型的代码或文档，学习GPT、BERT、LLaMA等主流模型的区别与原理，掌握预训练（Pretraining）与微调（Fine-tuning）概念，参数高效微调技术（LoRA、Adapter）。

2）资料推荐：阿里云大模型认证培训课程；李沐《动手学深度学习》。

3）代码实践：尝试实现一个简单的Transformer模块。熟悉预训练(Pre-training)、微调(Fine-tuning)、提示工程(Prompt Engineering)、RLHF(人类反馈强化学习)等核心技术范式。