消费级GPU成功运行1760亿参数大模型

发布时间：2022-08-26 11:31:48 所属栏目：大数据来源：互联网

导读：语言模型的规模一直在变大，PaLM 有 540B 参数，OPT、GPT-3 和 BLOOM 有大约 176B 参数，模型还在朝着更大的方向发展。这些模型很难在易于访问的设备上运行。例如，BLOOM-176B 需要在 8 个 80GB A100 GPU（每个约 15000 美元）上运行才能完成推理任务，而微

　　语言模型的规模一直在变大，PaLM 有 540B 参数，OPT、GPT-3 和 BLOOM 有大约 176B 参数，模型还在朝着更大的方向发展。

　　这些模型很难在易于访问的设备上运行。例如，BLOOM-176B 需要在 8 个 80GB A100 GPU（每个约 15000 美元）上运行才能完成推理任务，而微调 BLOOM-176B 则需要 72 个这样的 GPU。PaLM 等更大的模型将需要更多的资源。

　　我们需要找到方法来降低这些模型的资源需求，同时保持模型的性能。领域内已经开发了各种试图缩小模型大小的技术，例如量化和蒸馏。

　　BLOOM 是去年由 1000 多名志愿研究人员在一个名为「BigScience」的项目中创建的，该项目由人工智能初创公司 Hugging Face 利用法国政府的资金运作，今年 7 月 12 日 BLOOM 模型正式发布。

　　使用 Int8 推理会大幅减少模型的内存占用，却不会降低模型的预测性能。基于此，来自华盛顿大学、Meta AI 研究院等（原 Facebook AI Research ）机构的研究员联合 HuggingFace 开展了一项研究，试图让经过训练的 BLOOM-176B 在更少的 GPU 上运行，并将所提方法完全集成到 HuggingFace Transformers 中。

　　Github 地址：https://github.com/timdettmers/bitsandbytes
　　该研究为 transformer 提出了首个数十亿规模的 Int8 量化过程，该过程不会影响模型的推理性能。它可以加载一个具有 16-bit 或 32-bit 权重的 175B 参数的 transformer，并将前馈和注意力投影层转换为 8-bit。其将推理所需的内存减少了一半，同时保持了全精度性能。

　　该研究将向量量化和混合精度分解的组合命名为 LLM.int8()。实验表明，通过使用 LLM.int8()，可以在消费级 GPU 上使用多达 175B 参数的 LLM 执行推理，而不会降低性能。该方法不仅为异常值对模型性能的影响提供了新思路，还首次使在消费级 GPU 的单个服务器上使用非常大的模型成为可能，例如 OPT-175B/BLOOM。

　　方法简介
　　机器学习模型的大小取决于参数的数量及其精度，通常是 float32、float16 或 bfloat16 之一。float32 (FP32) 代表标准化的 IEEE 32 位浮点表示，使用这种数据类型可以表示范围广泛的浮点数。FP32 为「指数」保留 8 位，为「尾数」保留 23 位，为数字的符号保留 1 位。并且，大多数硬件都支持 FP32 操作和指令。

　　而 float16 (FP16) 为指数保留 5 位，为尾数保留 10 位。这使得 FP16 数字的可表示范围远低于 FP32，面临溢出（试图表示一个非常大的数字）和下溢（表示一个非常小的数字）的风险。

　　出现溢出时会得到 NaN（非数字）的结果，如果像在神经网络中那样进行顺序计算，那么很多工作都会崩溃。bfloat16 (BF16) 则能够避免这种问题。BF16 为指数保留 8 位，为小数保留 7 位，意味着 BF16 可以保留与 FP32 相同的动态范围。

　　理想情况下，训练和推理应该在 FP32 中完成，但它的速度比 FP16/BF16 慢，因此要使用混合精度来提高训练速度。但在实践中，半精度权重在推理过程中也能提供与 FP32 相似的质量。这意味着我们可以使用一半精度的权重并使用一半的 GPU 来完成相同的结果。

　　但是，如果我们可以使用不同的数据类型以更少的内存存储这些权重呢？一种称为量化的方法已广泛用于深度学习。

　　该研究首先在实验中用 2-byte BF16/FP16 半精度代替 4-byte FP32 精度，实现了几乎相同的推理结果。这样一来，模型减小了一半。但是如果进一步降低这个数字，精度会随之降低，那推理质量就会急剧下降。

　　为了弥补这一点，该研究引入 8bit 量化。这种方法使用四分之一的精度，因此只需要四分之一模型大小，但这不是通过去除另一半 bit 来实现的。

（编辑：上饶站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

火爆全网的数字人，究	总做描述性统计深入的
几款日常的开源无代码	2022年优质预测分析工