本文由体验技术团队合艳春同学原创。

引言

科技产品生命周期模型

1.png

1  AI简介

1.1 什么是AI?

AI(Artificial Intelligence)是研究如何利用机器模拟人类智能的一门技术,简单来说就是让计算机像人类一样思考和行动,甚至超过人类的智能。

从应用领域来说,AI可以分为能懂、会看、可动3个方向:

  • 能听会思:以自然语言处理技术为代表的发展路线,ChatGPT等
  • 会说会看:以计算机视觉、语言合成等技术为代码的发展路线,人脸识别等
  • 能动会做:以机器人技术为代表,仿生机器人、自动驾驶等 

1.2 AI的能力怎么来的?

AI的能力主要来自三个方面:数据算法算力

AI的能力不是无中生有的魔法,而是从数据中学习、通过算法优化、依靠算力支撑,最终凝结成模型参数的科技成果

数据: 当前的AI,尤其是大语言模型,是在互联网规模的庞大数据集上训练的,包括书籍、文章、代码、论坛对话等万亿计的文本。

算法: 算法是处理和从数据中学习的数学框架和代码实现。核心过程叫做 “训练”。 核心是一种叫做 Transformer 的神经网络架构。它的关键机制是“自注意力机制”。

算力 :

  • 硬件:主要在GPU(图形处理器)上完成,因为GPU拥有成千上万个核心,非常适合同时进行海量的简单计算(并行计算),而这正是神经网络训练所需要的。

  • 成本:训练一个顶尖的大模型可能需要成千上万块GPU连续工作数周甚至数月,耗资数百万甚至上千万美元。

2.png

3.png

1.3 多种技术集合

AI 并非单一技术,而是多种技术的集合,包括:

image.png

技术1:机器学习 Machine Learning

说明: 一种实现人工智能的方法。机器学习是一种让计算机从数据中自行寻找规律并构建预测模型的技术。(题海战术)

机器学习三大分类

  • 监督学习

    • 概念:给机器有“标准答案”的数据集进行训练。就像学生做带答案的习题集。
    • 典型任务:分类(猫狗识别)、回归(预测房价)。
  • 无监督学习

    • 概念:给机器无标签的数据,让它自己发现内在结构。就像给学生一堆杂乱无章的卡片让他们自行分类。
    • 典型任务:聚类(客户分群)。
  • 强化学习

    • 概念:智能体通过与环境互动,根据“奖励”来学习最佳策略。就像训练小狗,做对了给零食。当AI回答的不错的时候,给与鼓励,不够理想的时候,给与批评或者纠正。这样AI就能学习到人类的评分标准。
    • 典型任务:AlphaGo。

举例: 机器学习是让计算机通过“数据”和“统计”来自主学习如何完成任务,而不是通过我们手动编写具体的“规则”和“逻辑”。

  • 准备数据: 收集成千上万张图片,并给它们打上标签(这是“猫”,那是“不是猫”)。
  • 训练模型: 选择一个机器学习算法(比如一个神经网络),把这堆图片“喂”给它。算法会自动分析这些数据,寻找“猫”和“非猫”图片中像素点之间的统计规律和模式。
  • 预测/推理: 训练完成后,你得到的是一个模型。当你给它一张新的、没见过的图片时,这个模型会根据之前学到的模式,计算出一个概率(例如,“这张图片有97%的可能性是猫”)。

技术2:深度学习 Deep Learning

说明: 机器学习的一个子领域,使用类似于人脑神经网络的“人工神经网络”来处理极其复杂的数据(如图像、语音)。

  • 感知机(1969年) :最初的基石,它是最简单的神经网络,只有输入层和输出层
  • 多层神经网络(1986年): 一个多层的、使用非线性激活函数的感知机网络,就是一个最基础的深度学习(神经网络)模型。

举例:

7.png
深度学习算法使用“隐藏”层更多(数百个)的深度神经网络。可以自动从海量的数据集中提取特征,不需要人工干预(无监督学习)。

技术3:Transformer

说明: 从片段记忆到全局记忆;从串行处理到并行处理。

  • 自注意力机制: 自注意力机制使模型在处理每个词时,都能参考序列中其他所有词的信息,从而更好地理解上下文关系。
  • 编码器-解码器结构: 使得Transformer能够处理变长序列数据,并且具有更好的泛化能力。

举例:

image.png

技术4:大模型

说明: 通常基于 Transformer 架构构建的 超大规模语言模型(Large Language Models)。包含超大规模参数(通常在十亿个以上) 的神经网络模型,专门用来处理自然语言的模型。

举例:

10.png

11.png

2  主流的AI工具有哪些?如何选择AI工具?

功能类别工具名称核心功能/特点适用场景举例
聊天与文本处理ChatGPTOpenAI;文本生成、编程辅助、翻译、总结、多轮对话。功能全面,响应灵活。ChatGPT 5(25-08-07发布)内容创作、头脑风暴、学习辅助、代码编写
聊天与文本处理DeepSeek幻方量化;中文处理能力突出,擅长FAQ、内容改写和初阶SEO文章。Deepseek v3.1(25-08-21发布)主要面向中文市场的内容创作、文本处理
聊天与文本处理ClaudeAnthropic公司;自然的对话体验,长上下文窗口,擅长复杂指令和高品质文案创作,翻译能力也不错(尤其英文和日文)。长文阅读与摘要、创意写作、翻译
聊天与文本处理Gemini (前身为Bard)Google;深度集成Google生态(如Gmail、Docs、Sheets),实时网络搜索能力强。信息检索、整合Google应用进行办公、快速获取网络最新资讯
聊天与文本处理GrokxAI;整合于X()平台,风格幽默且带点“毒舌” ,能抓取即时社群趋势。社群媒体运营、追踪即时趋势、生成有“网感”的文案
聊天与文本处理豆包字节跳动;中文理解好,支持自定义智能体(Agent)。中文场景下的多轮对话、个性化AI助手构建
聊天与文本处理Kimi北京月之暗面科技有限公司研发;专注于长文本处理(支持超长上下文),具备多模态交互、文件解析。学术研究、长文阅读与摘要、资料整理
聊天与文本处理智谱清言北京智谱华章科技有限公司;基于ChatGLM大模型,支持多轮对话、多模态交互及智能体创建通用问答、创意写作、代码生成、个性化服务
AI搜索Perplexity答案附带引用来源,提供相关追问建议,适合深入研究。学术研究、市场调研、需要溯源的信息查找
AI搜索秘塔AI搜索纯净无广告,支持全网及学术搜索,能生成大纲和思维导图快速获取结构化信息、辅助学习与研究
AI搜索纳米AI搜索支持多样化搜索,结果简洁。日常信息检索
AI搜索知乎直答基于知乎社区内容,提供简略和深入两种答案获取有知乎特色的见解和答案
编程与开发Claude Code一个基于命令行的"监督编码代理",它能够理解你的代码库上下文,协助你完成从代码生成、错误调试到重构和安全审查等多种编程任务。通过 npm 安装:npm install -g @anthropic-ai/claude-code全栈应用快速原型开发
编程与开发GitHub Copilot基于OpenAI Codex模型,支持37种语言的智能补全和跨文件理解,深度集成VS Code/JetBrains。中文语义理解相对较弱全栈开发、团队协作、开源项目贡献 
编程与开发Cursor基于VS Code深度优化,支持多文件上下文理解、自然语言编辑和代码库聊天,集成Claude 3.5/3.7等多模型。中文界面友好,但频繁服务中断,Pro版$20/月。大型代码库维护、复杂任务自动化、团队协作
编程与开发通义灵码 (阿里巴巴)行级/函数级实时续写、单元测试生成、中文语义理解领先(准确率92%),对阿里云SDK/API有深度优化。免费使用,但复杂任务响应稳定性待提升,国际框架支持稍滞后。国内企业级应用、Java/SpringBoot项目、中文技术栈团队
编程与开发CodeGeeX (清华/智谱AI)完全开源,支持本地部署,支持20+编程语言3。对企业级支持较弱,代码补全准确率有待提升。隐私敏感项目、教育科研、预算有限的个人开发者
编程与开发DeepSeek Coder支持长上下文推理(128K tokens),API调用成本低,很多企业和工具在集成调用,响应速度波动较大。国内开发场景、中文交互、长代码文件处理
编程与开发腾讯云 CodeBuddy基于混元+DeepSeek双模型,中文响应延迟低(120ms),Craft智能体可通过自然语言生成完整应用。通过等保2.0三级认证,支持私有化部署。国内政企、金融等安全合规要求高的项目,全流程开发支持
编程与开发Tabnine通过SOC 2认证,支持本地化部署与企业自定义训练,确保代码数据不离开本地环境,响应延迟<100ms。中文场景支持弱于国产工具,高级功能需订阅($12/月)。金融、医疗等对数据隐私要求极高的场景
编程与开发Amazon Q Developer针对AWS云服务(如Lambda, S3)深度优化,提供安全扫描和漏洞检测。AWS云原生开发、企业安全合规项目
编程与开发v0.dev (Vercel)AI UI设计工具,文本描述快速生成React组件/Tailwind代码。仅支持前端组件,复杂交互逻辑处理能力较弱3。快速生成前端UI原型、个人项目或创意验证
编程与开发Trae (字节跳动)集成Claude 3.5 Sonnet和GPT-5/4o等顶级模型,完全免费,支持中英文界面,优秀的代码理解和生成能力,Builder模式可从描述生成完整项目,就是生成有点慢,排队...日常开发辅助、编程学习、快速原型开发
办公与效率Notion AI内嵌于Notion笔记工具,笔记摘要、待办生成、草稿撰写都很方便。知识管理、会议记录整理、项目规划
办公与效率Vocol会议录音转文字,并快速生成摘要和行动点。会议记录、访谈整理
图像生成Midjourney强大的文生图AI,图像艺术性和细节表现力出色。插画创作、概念设计、营销素材生成
图像生成Canva 内置AI功能的在线设计平台,适合快速生成社交媒体图片、演示文稿等。平面设计、社交媒体运营、快速制作美观的PPT
视频生成与编辑Runway提供多种AI视频编辑功能,如文生视频、视频擦除物体等。视频剪辑、特效制作、创意视频生成
视频生成与编辑Pika支持图片生成视频、文本生成视频等。动画制作、短视频创作

附录1 大语言模型的命名

模型命名含义
版本号版本号的命名体现了模型的更新迭代。例如:
Llama 2 和 Llama 3:清晰地表明了模型的不同版本。
ChatGPT 3.5 和 ChatGPT 4:用数字区分主版本,方便用户了解模型的进步。
参数量级参数量级的后缀直接展示了模型的规模:
“B”代表十亿(Billion) :如“7B”表示模型有70亿参数。
“T”代表万亿(Trillion) :如“1T”表示模型拥有1万亿参数,适合更复杂的任务。
参数越大,模型越强,但也需要更多计算资源。企业用户和研究机构会更关注高参数模型,而普通用户可能更注重使用体验和效率。
数据量与训练轮次后缀如“4e1t”:
4e:代表4个Epoch,即模型完整遍历数据集4次。
1t:指训练中使用了1万亿个Tokens。
更大的Token数据量和更多训练轮次通常能提升模型的能力,但同时显著增加了训练时间和计算成本。
权重量化常见的“INT4”或“INT8”后缀表示权重量化的位数。量化可以显著降低内存占用,但可能影响模型精度。原来是Float32(浮点存储)
INT8(8位整数)
例如,一个标准模型需要100GB内存,经过INT8量化后,可能只需要25GB,但大部分任务的精度几乎不受影响。应用场景:如智能手机中的语音助手、翻译工具等。
INT4(4位整数)
相比INT8进一步降低内存占用,例如从25GB降到12.5GB。但由于精度下降,INT4更适用于对准确性要求较低的任务。应用场景:物联网设备或边缘计算场景(如智能摄像头)。
数据集与语言如果后缀中出现某种语言的缩写(如“Chinese”),表明该模型专为该语言优化。如Llama3-70B-Chinese-Chat就是首批专为中文微调的Llama3-70B模型之一。
技术和方法模型名称中还常体现特定技术或方法,如:
clip-vit-large-patch14:表示模型基于Vision Transformer架构,并采用14x14像素分块处理图像。
Instruct:说明模型经过指令微调(Instruction Tuning),能更好地理解任务描述。
SFT:表示模型经过监督式微调(Supervised Fine-Tuning),专注于特定领域优化。

附录2 AI常见术语

生成式 AI 术语表

参数名称说明
超参数超参数是指管理机器学习模型训练过程的变量。这些变量可以包括学习速率、优化器中的动量值以及模型最后一个隐藏层中的单元数。如需了解详情,请参阅超参数调优概览。
幻觉生成式 AI 中的幻觉是指 AI 给出的回答无法通过其训练数据来建立依据。内容可能与事实不符。在文本生成的背景下,它是指在生成的文本内容中包含一些听起来可信的随机虚假信息。
token语言模型中的词元是模型训练和进行推理的原子单元,即字词、语素和字符。在语言模型之外的网域中,词元可以表示其他类型的原子单元。例如,在计算机视觉中,词元可能是图片的一部分。 如需了解详情,请参阅列出和统计 token 数。
词嵌入词嵌入是一种将字词表示为浮点值密集向量的方式。这样一来,相似的字词就会具有相似的编码。在生成式 AI 中,词嵌入通常用于捕获字词之间的关系,并生成新文本或代码,而无需任何来源。在生成式 AI 中,词嵌入可用于训练可生成新文本或代码的模型。通过了解字词之间的关系,生成式 AI 模型可以创建连贯且相关的新内容。
上下文窗口模型可在给定提示中处理的 token 数量。上下文窗口越大,模型可用于提供连贯一致的提示回答的信息就越多。
提示工程(提示设计)生成式 AI 中的提示工程是指精心设计有效的提示,以便从大语言模型 (LLM) 中获得所需的输出。这是一个迭代的、以测试为导向的过程,专注于优化输入以实现特定结果。这需要同时考虑提示的内容和结构,以确保获得准确且高质量的回答。对于复杂任务,有效的提示工程至关重要,即使简单任务可能不需要它。目标是快速为基于 LLM 的应用设计原型。如需了解详情,请参阅提示工程简介。Claude 4提示工程最佳实践

附录3 大模型测评

大模型评测主要依赖两个方面:评测平台 和 评测基准。

 主要评测平台

  • Open LLM Leaderboard(Hugging Face) :Hugging Face 推出的开源大模型排名平台,使用多个学术基准评估模型的综合能力。Open LLM Leaderboard
  • HELM(斯坦福) :斯坦福大学提出的全面评估框架,覆盖语言理解、推理、生成等 16 种任务和 30+ 数据集。
  • OpenCompass(商汤) :商汤科技推出的开源评测体系,支持 50+ 数据集与 30 万条问题,覆盖中英文及多模态任务。
  • SuperCLUE:专注于中文大模型评测,涵盖基础能力、专业领域和安全性等维度。
  • AlpacaEval:基于GPT-4的自动化评测,适合快速对比模型质量,该榜单则是同时包含了对开源LLM和闭源LLM的评价。Alpaca Leaderboard
  • ChatBot Arena:是一个大模型对战排名平台,就像网球世界排名一样

 主要评测基准

  • MMLU:57个学科,测试多任务知识。
  • C-Eval / CMMLU:专注中文,涵盖52+学科。
  • GSM8K:数学推理,测试分步计算能力。
  • HumanEval:代码能力评估,164道编程题。
  • TruthfulQA:检测模型生成内容的真实性。
  • GAOKAO-Bench:基于高考题,评估逻辑推理和知识应用。

所有榜单上的排名都仅能做一个参考,由于海量的尝试,榜单数据集可能过拟合,导致那些对于榜单数据集表现好的LLM脱颖而出(但是这些模型的真实泛化能力其实并没有那么好)。

附录4 AI发展历史

入门必读!写给初学者的人工智能简史!

关于OpenTiny

欢迎加入 OpenTiny 开源社区。添加微信小助手:opentiny-official 一起参与交流前端技术~

OpenTiny 官网:opentiny.design
OpenTiny 代码仓库:github.com/opentiny
TinyVue 源码:github.com/opentiny/ti…
TinyEngine 源码: github.com/opentiny/ti…
欢迎进入代码仓库 Star?TinyEngine、TinyVue、TinyNG、TinyCLI、TinyEditor~ 如果你也想要共建,可以进入代码仓库,找到 good first issue 标签,一起参与开源贡献~

本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:[email protected]