不做手机控
28.3MB · 2025-11-28
本文由体验技术团队合艳春同学原创。
AI(Artificial Intelligence)是研究如何利用机器模拟人类智能的一门技术,简单来说就是让计算机像人类一样思考和行动,甚至超过人类的智能。
从应用领域来说,AI可以分为能懂、会看、可动3个方向:
AI的能力主要来自三个方面:数据、算法和算力
AI的能力不是无中生有的魔法,而是从数据中学习、通过算法优化、依靠算力支撑,最终凝结成模型参数的科技成果
数据: 当前的AI,尤其是大语言模型,是在互联网规模的庞大数据集上训练的,包括书籍、文章、代码、论坛对话等万亿计的文本。
算法: 算法是处理和从数据中学习的数学框架和代码实现。核心过程叫做 “训练”。 核心是一种叫做 Transformer 的神经网络架构。它的关键机制是“自注意力机制”。
算力 :
硬件:主要在GPU(图形处理器)上完成,因为GPU拥有成千上万个核心,非常适合同时进行海量的简单计算(并行计算),而这正是神经网络训练所需要的。
成本:训练一个顶尖的大模型可能需要成千上万块GPU连续工作数周甚至数月,耗资数百万甚至上千万美元。
AI 并非单一技术,而是多种技术的集合,包括:
说明: 一种实现人工智能的方法。机器学习是一种让计算机从数据中自行寻找规律并构建预测模型的技术。(题海战术)
机器学习三大分类
监督学习
无监督学习
强化学习
举例: 机器学习是让计算机通过“数据”和“统计”来自主学习如何完成任务,而不是通过我们手动编写具体的“规则”和“逻辑”。
说明: 机器学习的一个子领域,使用类似于人脑神经网络的“人工神经网络”来处理极其复杂的数据(如图像、语音)。
举例:
深度学习算法使用“隐藏”层更多(数百个)的深度神经网络。可以自动从海量的数据集中提取特征,不需要人工干预(无监督学习)。
说明: 从片段记忆到全局记忆;从串行处理到并行处理。
举例:
说明: 通常基于 Transformer 架构构建的 超大规模语言模型(Large Language Models)。包含超大规模参数(通常在十亿个以上) 的神经网络模型,专门用来处理自然语言的模型。
举例:
| 功能类别 | 工具名称 | 核心功能/特点 | 适用场景举例 |
|---|---|---|---|
| 聊天与文本处理 | ChatGPT | OpenAI;文本生成、编程辅助、翻译、总结、多轮对话。功能全面,响应灵活。ChatGPT 5(25-08-07发布) | 内容创作、头脑风暴、学习辅助、代码编写 |
| 聊天与文本处理 | DeepSeek | 幻方量化;中文处理能力突出,擅长FAQ、内容改写和初阶SEO文章。Deepseek v3.1(25-08-21发布) | 主要面向中文市场的内容创作、文本处理 |
| 聊天与文本处理 | Claude | Anthropic公司;自然的对话体验,长上下文窗口,擅长复杂指令和高品质文案创作,翻译能力也不错(尤其英文和日文)。 | 长文阅读与摘要、创意写作、翻译 |
| 聊天与文本处理 | Gemini (前身为Bard) | Google;深度集成Google生态(如Gmail、Docs、Sheets),实时网络搜索能力强。 | 信息检索、整合Google应用进行办公、快速获取网络最新资讯 |
| 聊天与文本处理 | Grok | xAI;整合于X()平台,风格幽默且带点“毒舌” ,能抓取即时社群趋势。 | 社群媒体运营、追踪即时趋势、生成有“网感”的文案 |
| 聊天与文本处理 | 豆包 | 字节跳动;中文理解好,支持自定义智能体(Agent)。 | 中文场景下的多轮对话、个性化AI助手构建 |
| 聊天与文本处理 | Kimi | 北京月之暗面科技有限公司研发;专注于长文本处理(支持超长上下文),具备多模态交互、文件解析。 | 学术研究、长文阅读与摘要、资料整理 |
| 聊天与文本处理 | 智谱清言 | 北京智谱华章科技有限公司;基于ChatGLM大模型,支持多轮对话、多模态交互及智能体创建。 | 通用问答、创意写作、代码生成、个性化服务 |
| AI搜索 | Perplexity | 答案附带引用来源,提供相关追问建议,适合深入研究。 | 学术研究、市场调研、需要溯源的信息查找 |
| AI搜索 | 秘塔AI搜索 | 纯净无广告,支持全网及学术搜索,能生成大纲和思维导图。 | 快速获取结构化信息、辅助学习与研究 |
| AI搜索 | 纳米AI搜索 | 支持多样化搜索,结果简洁。 | 日常信息检索 |
| AI搜索 | 知乎直答 | 基于知乎社区内容,提供简略和深入两种答案。 | 获取有知乎特色的见解和答案 |
| 编程与开发 | Claude Code | 一个基于命令行的"监督编码代理",它能够理解你的代码库上下文,协助你完成从代码生成、错误调试到重构和安全审查等多种编程任务。通过 npm 安装:npm install -g @anthropic-ai/claude-code | 全栈应用快速原型开发 |
| 编程与开发 | GitHub Copilot | 基于OpenAI Codex模型,支持37种语言的智能补全和跨文件理解,深度集成VS Code/JetBrains。中文语义理解相对较弱 | 全栈开发、团队协作、开源项目贡献 |
| 编程与开发 | Cursor | 基于VS Code深度优化,支持多文件上下文理解、自然语言编辑和代码库聊天,集成Claude 3.5/3.7等多模型。中文界面友好,但频繁服务中断,Pro版$20/月。 | 大型代码库维护、复杂任务自动化、团队协作 |
| 编程与开发 | 通义灵码 (阿里巴巴) | 行级/函数级实时续写、单元测试生成、中文语义理解领先(准确率92%),对阿里云SDK/API有深度优化。免费使用,但复杂任务响应稳定性待提升,国际框架支持稍滞后。 | 国内企业级应用、Java/SpringBoot项目、中文技术栈团队 |
| 编程与开发 | CodeGeeX (清华/智谱AI) | 完全开源,支持本地部署,支持20+编程语言3。对企业级支持较弱,代码补全准确率有待提升。 | 隐私敏感项目、教育科研、预算有限的个人开发者 |
| 编程与开发 | DeepSeek Coder | 支持长上下文推理(128K tokens),API调用成本低,很多企业和工具在集成调用,响应速度波动较大。 | 国内开发场景、中文交互、长代码文件处理 |
| 编程与开发 | 腾讯云 CodeBuddy | 基于混元+DeepSeek双模型,中文响应延迟低(120ms),Craft智能体可通过自然语言生成完整应用。通过等保2.0三级认证,支持私有化部署。 | 国内政企、金融等安全合规要求高的项目,全流程开发支持 |
| 编程与开发 | Tabnine | 通过SOC 2认证,支持本地化部署与企业自定义训练,确保代码数据不离开本地环境,响应延迟<100ms。中文场景支持弱于国产工具,高级功能需订阅($12/月)。 | 金融、医疗等对数据隐私要求极高的场景 |
| 编程与开发 | Amazon Q Developer | 针对AWS云服务(如Lambda, S3)深度优化,提供安全扫描和漏洞检测。 | AWS云原生开发、企业安全合规项目 |
| 编程与开发 | v0.dev (Vercel) | AI UI设计工具,文本描述快速生成React组件/Tailwind代码。仅支持前端组件,复杂交互逻辑处理能力较弱3。 | 快速生成前端UI原型、个人项目或创意验证 |
| 编程与开发 | Trae (字节跳动) | 集成Claude 3.5 Sonnet和GPT-5/4o等顶级模型,完全免费,支持中英文界面,优秀的代码理解和生成能力,Builder模式可从描述生成完整项目,就是生成有点慢,排队... | 日常开发辅助、编程学习、快速原型开发 |
| 办公与效率 | Notion AI | 内嵌于Notion笔记工具,笔记摘要、待办生成、草稿撰写都很方便。 | 知识管理、会议记录整理、项目规划 |
| 办公与效率 | Vocol | 会议录音转文字,并快速生成摘要和行动点。 | 会议记录、访谈整理 |
| 图像生成 | Midjourney | 强大的文生图AI,图像艺术性和细节表现力出色。 | 插画创作、概念设计、营销素材生成 |
| 图像生成 | Canva | 内置AI功能的在线设计平台,适合快速生成社交媒体图片、演示文稿等。 | 平面设计、社交媒体运营、快速制作美观的PPT |
| 视频生成与编辑 | Runway | 提供多种AI视频编辑功能,如文生视频、视频擦除物体等。 | 视频剪辑、特效制作、创意视频生成 |
| 视频生成与编辑 | Pika | 支持图片生成视频、文本生成视频等。 | 动画制作、短视频创作 |
| 模型命名 | 含义 |
|---|---|
| 版本号 | 版本号的命名体现了模型的更新迭代。例如: Llama 2 和 Llama 3:清晰地表明了模型的不同版本。 ChatGPT 3.5 和 ChatGPT 4:用数字区分主版本,方便用户了解模型的进步。 |
| 参数量级 | 参数量级的后缀直接展示了模型的规模: “B”代表十亿(Billion) :如“7B”表示模型有70亿参数。 “T”代表万亿(Trillion) :如“1T”表示模型拥有1万亿参数,适合更复杂的任务。 参数越大,模型越强,但也需要更多计算资源。企业用户和研究机构会更关注高参数模型,而普通用户可能更注重使用体验和效率。 |
| 数据量与训练轮次 | 后缀如“4e1t”: 4e:代表4个Epoch,即模型完整遍历数据集4次。 1t:指训练中使用了1万亿个Tokens。 更大的Token数据量和更多训练轮次通常能提升模型的能力,但同时显著增加了训练时间和计算成本。 |
| 权重量化 | 常见的“INT4”或“INT8”后缀表示权重量化的位数。量化可以显著降低内存占用,但可能影响模型精度。原来是Float32(浮点存储) INT8(8位整数) : 例如,一个标准模型需要100GB内存,经过INT8量化后,可能只需要25GB,但大部分任务的精度几乎不受影响。应用场景:如智能手机中的语音助手、翻译工具等。 INT4(4位整数) : 相比INT8进一步降低内存占用,例如从25GB降到12.5GB。但由于精度下降,INT4更适用于对准确性要求较低的任务。应用场景:物联网设备或边缘计算场景(如智能摄像头)。 |
| 数据集与语言 | 如果后缀中出现某种语言的缩写(如“Chinese”),表明该模型专为该语言优化。如Llama3-70B-Chinese-Chat就是首批专为中文微调的Llama3-70B模型之一。 |
| 技术和方法 | 模型名称中还常体现特定技术或方法,如: clip-vit-large-patch14:表示模型基于Vision Transformer架构,并采用14x14像素分块处理图像。 Instruct:说明模型经过指令微调(Instruction Tuning),能更好地理解任务描述。 SFT:表示模型经过监督式微调(Supervised Fine-Tuning),专注于特定领域优化。 |
生成式 AI 术语表
| 参数名称 | 说明 |
|---|---|
| 超参数 | 超参数是指管理机器学习模型训练过程的变量。这些变量可以包括学习速率、优化器中的动量值以及模型最后一个隐藏层中的单元数。如需了解详情,请参阅超参数调优概览。 |
| 幻觉 | 生成式 AI 中的幻觉是指 AI 给出的回答无法通过其训练数据来建立依据。内容可能与事实不符。在文本生成的背景下,它是指在生成的文本内容中包含一些听起来可信的随机虚假信息。 |
| token | 语言模型中的词元是模型训练和进行推理的原子单元,即字词、语素和字符。在语言模型之外的网域中,词元可以表示其他类型的原子单元。例如,在计算机视觉中,词元可能是图片的一部分。 如需了解详情,请参阅列出和统计 token 数。 |
| 词嵌入 | 词嵌入是一种将字词表示为浮点值密集向量的方式。这样一来,相似的字词就会具有相似的编码。在生成式 AI 中,词嵌入通常用于捕获字词之间的关系,并生成新文本或代码,而无需任何来源。在生成式 AI 中,词嵌入可用于训练可生成新文本或代码的模型。通过了解字词之间的关系,生成式 AI 模型可以创建连贯且相关的新内容。 |
| 上下文窗口 | 模型可在给定提示中处理的 token 数量。上下文窗口越大,模型可用于提供连贯一致的提示回答的信息就越多。 |
| 提示工程(提示设计) | 生成式 AI 中的提示工程是指精心设计有效的提示,以便从大语言模型 (LLM) 中获得所需的输出。这是一个迭代的、以测试为导向的过程,专注于优化输入以实现特定结果。这需要同时考虑提示的内容和结构,以确保获得准确且高质量的回答。对于复杂任务,有效的提示工程至关重要,即使简单任务可能不需要它。目标是快速为基于 LLM 的应用设计原型。如需了解详情,请参阅提示工程简介。Claude 4提示工程最佳实践 |
大模型评测主要依赖两个方面:评测平台 和 评测基准。
所有榜单上的排名都仅能做一个参考,由于海量的尝试,榜单数据集可能过拟合,导致那些对于榜单数据集表现好的LLM脱颖而出(但是这些模型的真实泛化能力其实并没有那么好)。
入门必读!写给初学者的人工智能简史!
欢迎加入 OpenTiny 开源社区。添加微信小助手:opentiny-official 一起参与交流前端技术~
OpenTiny 官网:opentiny.design
OpenTiny 代码仓库:github.com/opentiny
TinyVue 源码:github.com/opentiny/ti…
TinyEngine 源码: github.com/opentiny/ti…
欢迎进入代码仓库 Star?TinyEngine、TinyVue、TinyNG、TinyCLI、TinyEditor~
如果你也想要共建,可以进入代码仓库,找到 good first issue 标签,一起参与开源贡献~