相信大家看文章时,或者多多少少听到一些AI相关的名词,比如说:参数、模型、架构等名词。这些名词是什么意思呢?
接下来就一起看看吧!
AI 主要概念
架构(Architecture)
架构指的是 AI 模型的核心设计和计算结构,它决定了模型的能力、计算方式和适用场景。例如: - Transformer(大部分现代 AI 模型的基础架构) - LLaMA(Large Language Model Meta AI) → Meta 公司优化的 Transformer 架构 - GPT(Generative Pre-trained Transformer) → OpenAI 的 Transformer 变种 - Mistral → 类似 LLaMA 但优化了推理效率 - Gemini → Google 的多模态架构 - Stable Diffusion → 用于图像生成的扩散模型
参数(Parameters)
- 参数(Parameters) 是指模型训练过程中学习到的权重和偏置,它决定了模型的知识量和能力。
- 参数数量(Parameter Count) 通常用 B(billion,十亿)或 M(million,百万) 来表示:
- LLaMA 2 7B → 70 亿(7B)参数
- GPT-3 175B → 1750 亿(175B)参数
- Mistral 7B → 7B 参数
一般来说,参数越多,模型的能力越强,但计算需求和显存占用也越高。
AI 模型的官方定义
在人工智能和机器学习领域,模型(Model) 的官方定义通常如下:
模型是指一个经过训练的数学函数或统计算法,它基于输入数据进行推理、预测或生成内容。
换句话说,AI 模型是一个学习到数据模式的系统,它能根据输入推测合理的输出。
权威机构的定义
- MIT(麻省理工学院)
"A model is a mathematical representation of a real-world process, trained using data to make predictions or decisions."
(模型是现实世界过程的数学表示,它使用数据进行训练,以做出预测或决策。) - Google AI
"A model is a file that has been trained to recognize certain types of patterns. You train a model over a set of data, providing it with an algorithm that it can use to reason over and learn from that data."
(模型是一个经过训练的文件,它可以识别特定模式。你用一组数据对其进行训练,并提供算法,使其能够推理和学习数据。) - OpenAI(GPT 系列模型开发者)
"A neural network model is a set of parameters and computational rules trained on large datasets to generate responses based on input prompts."
(神经网络模型是一组参数和计算规则,它在大规模数据集上训练,以根据输入提示生成响应。)
AI 模型的命名规则
模型名称通常包含多个字段,表示 架构、参数量、量化方式、文件格式、优化方式 等。
(1)常见的模型命名示例
① LLaMA 2 13B Q4_K_M.gguf
拆解: - LLaMA 2 → Meta 公司的 AI 架构,第二代 LLaMA - 13B → 130 亿参数 - Q4_K_M → 量化格式(减少精度以降低显存占用) - .gguf → 文件格式(适用于 CPU/GPU 加速推理)
mistral-7B-instruct-v0.1.Q6_K.gguf
拆解: - mistral → 架构(Mistral AI 开发) - 7B → 70 亿参数 - instruct → 适用于指令微调(对话优化) - v0.1 → 版本号 - Q6_K → 6-bit 量化格式 - .gguf → 文件格式(适用于 llama.cpp)
命名字段详解
字段名称 | 含义 |
---|---|
模型架构 | LLaMA 、GPT 、Mistral 、Gemini 、StableDiffusion 等 |
参数大小 | 7B (7 Billion) → 70 亿参数;13B (130 亿参数);65B (650 亿参数) |
训练方式 | instruct (指令微调)chat (聊天优化)base (基础模型) |
量化格式 | Q4_K_M 、Q6_K 、FP16 (详见下方量化部分) |
文件格式 | .gguf (新格式).ggml (旧格式).safetensors (PyTorch 安全格式) |
版本 | v0.1 、v1.5 (表示不同的训练版本) |
量化(Quantization)
量化是用更少的比特位表示权重,以减少模型大小和显存占用: - FP16(16-bit 浮点数) → 高精度,但显存占用大 - Q8_K(8-bit 量化) → 轻量化,但精度仍较高 - Q6_K(6-bit 量化) → 进一步压缩,但保留部分性能 - Q4_K_M(4-bit 量化) → 极致压缩,适合低端设备
**量化 VS 显存需求示例(LLaMA 2 7B)
量化方式 | 显存需求 |
---|---|
FP16 | 32GB |
Q8_K | 16GB |
Q6_K | 12GB |
Q4_K | 8GB |
文件格式
不同的文件格式适用于不同的推理工具:
格式 | 适用工具 | 说明 |
---|---|---|
GGUF | llama.cpp、LM Studio | 最新格式,支持 CPU/GPU |
GGML | llama.cpp | 旧格式,逐步被 GGUF 替代 |
safetensors | PyTorch | 训练和推理 |
GPTQ | AutoGPTQ | 专门优化 GPU |