大语言模型的数值精度(llm percision)

2025年10月17日关作者 ScotI_Blog

引文：淺談DeepLearning的浮點數精度FP32/FP16/TF32/BF16……..(以LLM為例)
揭开 LLMs 中的精度之谜：低比特格式如何赋能大型语言模型 | by Yogesh Kumar | Medium — Demystifying Precision in LLMs: How Lower-Bit Formats Power Large Language Models | by Yogesh Kumar | Medium

在大型语言模型（LLMs）的世界里，精度的力量往往被忽视。当这些模型处理数十亿个单词和短语时，数据表示的最小变化都可能对性能、效率以及与训练和部署这些 AI 巨兽相关的计算成本产生巨大影响。LLM 架构的一个引人入胜的方面在于用于数值计算的精度格式，特别是浮点表示，如 FP16（16 位）甚至量化 4 位格式。

Reddit上面有这样一个讨论：为什么 LLMs 要量化而不是用低精度进行训练？（为什么 LLMs 要量化而不是用较低精度进行训练？：r/LocalLLaMA — Why are LLMs quantized instead of being trained with lower precision? : r/LocalLLaMA）

其实原因解释起来也很直接：由于精度不足，梯度会爆炸。这也是为什么通常使用 BF16，因为 FP16 不够稳定

所以对于一个模型来说，更高的参数精度可以带来更好（其实是更稳定更可预测，更好是直觉）的模型效果。在IEEE定义下，我们知道一个浮点数可以分为三个部分：符号位，指数位和小数位，指数位影响精度范围，小数位影响实际的精度