天津大学：2024大模型轻量化技术研究报告（125页）.pdf

《天津大学：2024大模型轻量化技术研究报告（125页）.pdf》由会员分享，可在线阅读，更多相关《天津大学：2024大模型轻量化技术研究报告（125页）.pdf（125页珍藏版）》请在本站上搜索。

1、大模型轻量化技术张鹏2024.8.24目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望l 语言模型是自然语言处理任务中的核心技术，大语言模型的发展取得突破性进展l 自然语言处理是国家重大战略需求国务院新一代人工智能发展规划自然语言自然语言处理技术自然语言处理信息检索数字媒宣多模态内容理解算力资源消耗大可解释性差语言模型背景语义计算维数灾难模型设计不可解释应用部署参数量大语义概率空间条件概率：(!|.!#)发展阶段关键难题联合概率：(,$.!)总体思路：用轻量化的方式解决大模型实际应用部署过程中遇到的问题

2、语言模型的发展历史和关键难题大模型参数规模Param:0.3BBERTT5GPT-3PaLMChatGPT/GPT 4Param:11BParam:540BParam:1800 B2018.102019.102020.052022.102023.03大语言模型涌现高存储成本和计算成本推理速度受限Param:170B196ms/token73ms/token但是大模型轻量化目标轻量化技术体积更小跑的更快预训练语言模型压缩后的预训练语言模型压缩大模型轻量化的细粒度解析RMS NormEmbeddingSelf-Attention(Grouped Multi-Query Attention)with

3、 KV CacheRMS NormFeed ForwardRotary Position Embedding 参数量占比较大，对存储及显存计算造成压力多头注意力计算造成大量的计算成本，影响计算速度，参数量占比较大。此外，KV Cache部分使用空间换取时间，造成缓存压力。QKV作为中间表示存于内存中，也会对存储造成压力 Embedding层，语义表示的初始化，影响效果，占据一定的参数量LLaMA2 为例大模型轻量化技术为模型在实际应用和发展中带来更多便利和机遇大模型轻量化技术模型压缩推理加速硬件模型手机应用智能家居大模型轻量化技术的意义手机端侧大模型应用：将大模型应用于移动端，进行家居控制智

4、能驾驶舱应用：将大模型应用于智能车仓，提升个性化服务医疗大模型医疗文书决策辅助患者管理医师培训医疗大模型工业大模型应用：辅助医疗应用：解决生产效率问题等目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望轻量化技术总览大模型轻量化技术量化知识蒸馏稀疏化低秩分解减少模型计算复杂度和内存占用，同时尽可能保持性能和泛化能力结构化稀疏非结构化稀疏矩阵分解张量分解其它技术参数共享硬件加速参数量化激活量化减少计算量目标保留泛化能力减少计算量高效训练推理加速减少模型参数量轻量化相关理论u轻量化的优化目标降低参数数量更多的参数数

5、量通常意味着模型更复杂通过提高参数压缩比，可以降低存储和计算需求减少占用存储空间大小模型参数越多，模型文件需要的存储空间越大压缩存储空间可以降低部署成本，提高模型在存储设备上的传输效率降低浮点运算数（FLOPs）模型参数越多，通常意味着在一次前向传播中所需的浮点运算数量越多降低FLOPs可以为模型带来更快的推理速度模型参数数量模型大小LLaMA3-8B8B16GBLLaMA3-70B70B145GB轻量化相关理论u轻量化模型减轻硬件压力显存（GPU Memory）用于存储训练、推理中的模型参数、梯度和激活值减少显存占用可降低对显卡设备的要求，增加训练批次大小，减少训练时间。带宽（Ban

6、dwidth）代表数据在处理器和内存之间的传输速度降低带宽占用可以减少因数据传输带来的延迟，提高计算速度。内存（RAM）用于存储训练数据、模型参数和中间计算结果降低内存空间需求可以减少磁盘交换操作，提升训练效率。性能有限设备上LLM难以部署轻量化相关理论u轻量化模型评估指标吞吐量（Throughput）单位时间内模型输出token的数量高吞吐量表示模型能够更高效地处理大批量数据,适用于需要高处理能力的应用。内存占用（Memory Footprint）模型在运行过程中占用的内存大小。较小的内存占用有助于在内存受限的设备上高效运行模型。模型推理视频编码数据传输其他总内存参数压缩比（Compre

7、ssion Rate）:轻量化后模型的参数占原始参数的比例虚拟用户个数每个虚拟用户请求生成的Token数服务所用的总时间!#$%&%!=V%轻量化相关理论u轻量化模型评估指标推理速度（Inference Speed）模型每次推理所需的时间，通常以毫秒（ms）为单位。高推理速度对于实时应用和用户体验非常重要。延迟（Latency）模型从接收到输入到输出结果所需的时间。低延迟对于实时应用（如语音识别、自动驾驶）尤为重要。在LLM推理中，计算公式如下：=()+*+,-+()-+.-用户输入模型推理模型输出推理时间延迟轻量化相关理论u轻量化模型评估指标推理效果（performance）压缩后模型在

8、各类任务上的表现，如精准度（ACC），困惑度（PPL）,BLEU值等。维持压缩后模型的推理效果是轻量化的重要的目标之一。指标适任务说明ACC分类任务准确率（Accuracy），衡量模型正确预测的样本占总样本的比例PPL生成任务困惑度（Perplexity），衡量语言模型预测下一个词的不确定性，值越低表示模型预测能力越强。BLEU机器翻译、文本生成双语评估的不确定性（Bilingual Evaluation Understudy），用于评估机器翻译或文本生成任务的质量。F1分类任务F1分数是精确率和召回率的调和平均数，用于衡量不平衡数据集上的分类性能。EM信息抽取精确匹配（Exact Match

9、），用于评估信息抽取任务中模型输出与真实标签的完全一致性。目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望轻量化技术总览减少模型计算复杂度和内存占用，同时尽可能保持性能和泛化能力大模型轻量化技术量化知识蒸馏稀疏化低秩分解结构化稀疏非结构化稀疏矩阵分解张量分解其它技术参数共享硬件加速参数量化激活量化减少计算量目标保留泛化能力减少计算量高效训练推理加速减少模型参数量量化技术u量化基本理论大模型量化是一种将深度学习模型的参数从高精度（16位浮点数，FP16）转换为低精度（如8位整数，INT8）的方法。量化过程：以IN

10、T8对称量化为例，在存储权重参数时,将16位浮点数组成的矩阵!#$经量化存储为8位整数矩阵为%&(：其中，()为近似取整函数，scale为缩放因子：%&(内所有值均为127,127内的整数。)(168scaleWroundWFPINT=127|max,ijjiwscale=Linear1.460.342.181.060.620.201.610.370.380.560.970.460.130.541.030.380.492.492.001.58原矩阵!#$内存需求大，占用位宽高量化量化矩阵%&(内存需求小，占用位宽低QLinear19-0.49-2.49-2.001.58251271028149

11、-0.49-2.49-2.001.58237285310-0.49-2.49-2.001.588219192974-0.49-2.49-2.001.58171115432存储时50%量化技术1.450.332.171.050.620.191.600.370.370.560.960.450.130.541.030.370.492.491.991.58解量化矩阵0!#$QLinear19-0.49-2.49-2.001.58251271028149-0.49-2.49-2.001.58237285310-0.49-2.49-2.001.588219192974-0.49-2.49-2.001.58

12、171115432u量化基本理论大模型量化是一种将深度学习模型的参数从高精度（16位浮点数，FP16）转换为低精度（如8位整数，INT8）的方法。解量化计算时Linear量化矩阵%&(解量化过程在推理时，为了恢复近似的原始浮点数值，需要进行解量化，即将量化后的整数矩阵/012映射回浮点数矩阵23456：解量化后的矩阵23456相对于原矩阵3456有一定的误差，使用的比特数（bits）越多，误差越小。scaleWWINTFP=81620量化技术Dettmers T,Lewis M,BelkadaY,et al.LLM.int8():8-bit Matrix Multiplication for

13、Transformers at ScaleC.NeurIPS 2022当大模型参数量大于6.7B时，经激活层生成的矩阵存在占总参数量0.1%的异常值（outlier），这些异常值导致量化时矩阵一部分正常值被量化为零（如中间示例图标红部分），严重影响量化大模型的性能。0.0943.4-0.165.40.1558.70.057.7-0.2-68.31.142.10.154.8-0.2587.50.961.9-0.847.90.043.40.065.40.058.70.057.70.0-68.31.041.10.055.10.087.50.961.9-0.947.7量化+解量化原矩阵3456解量化矩

14、阵43456异常值u低比特量化的难点21量化技术Dettmers T,Lewis M,BelkadaY,et al.LLM.int8():8-bit Matrix Multiplication for Transformers at ScaleC.NeurIPS 2022uLLM.int8()解决方案LLM.int8()采用混合精度量化的方法，保持矩阵内的异常值为16位浮点数（FP16）且不参与量化，其余的参数正常量化，取得了很好的效果。浮点类型混合精度问题：混合精度在实际应用中难以部署22量化技术SmoothQuant方法利用矩阵的参数分布均匀，无异常值的特点，从数学等价的角度出发，令矩

15、阵“代偿”一部分异常值的影响，实现了和的高精度INT8量化：普通量化方法为直接对和分别做量化，由于异常值的存在，难以被高精度量化：uSmoothQuant:缓解异常值的影响Xiao G,Lin J,Seznec M,et al.Smoothquant:Accurate and efficient post-training quantization for large language modelsC.ICML202323量化技术业界常用的量化工具名称/特点or优势通用端侧TinyChatGPTQ 训练后量化SmoothQuant AWQ OmniQuant Squeeze LLM 量化感知

16、训练LLM-QAT QLoRA TensorRT-LLMllama.cppLin J,Tang J,Tang H,et al.AWQ:Activation-ware weight quantization for on-device llm compression and accelerationC.MLSys 2024Frantar E,Ashkboos S,Hoefler T,et al.GPTQ:Accurate post-training quantization for generative pre-trained transformersC.ICLR 2023Shao W,Chen

17、 M,Zhang Z,et al.Omniquant:Omnidirectionally calibrated quantization for large language modelsC.ICLR 2024Kim S,Hooper C,GholamiA,et al.SqueezerLLM:Dense-and-Sparse QuantizationC.ICML 2024稀疏化技术u参数稀疏化背景随着模型参数量的增大，训练一个巨大的生成式模型，需要很大的GPU内存，并且产生巨大的计算量。大模型稀疏化通过减少参数的密集度来加快计算速度和减少存储成本。稀疏化的基本思想(1)非结构化稀疏寻找一种方法

18、来确定模型中哪些参数对模型的输出贡献较小或不重要，然后将这些参数设置为零或进行其他形式的删减。这样可以在保持模型性能的前提下，大幅减少模型的参数数量。(2)结构化稀疏基于结构式的稀疏策略对参数进行剪枝或置零，以充分利用参数的稀疏性来加速计算过程。例如，在矩阵乘法等运算中，跳过零值参数的计算，从而提高计算效率。0000Delete or 0直接移除权重矩阵中最不重要的权重值，使得它们变为零移除整个行、列、卷积核或者神经元等结构单元稀疏化技术u示例稀疏激活：可以在激活函数层面上引入稀疏性，例如使用ReLU激活函数自然产生的零值。稀疏注意力机制：稀疏注意力机制通过限制注意力计算的范围，减少了不必

19、要的计算。例如，使用局部注意力或分块稀疏注意力来降低计算量。稀疏化技术u非结构化稀疏问题：如何在使用非结构化稀疏的同时，保持较高的模型推理速度呢？为什么使用非结构化稀疏？结构化稀疏由于限制了剪枝元素的选择自由，会导致模型准确率的大幅下降，而采用非结构化稀疏则可以较好的保留模型的准确率。非结构化稀疏产生的问题由于GPU中的张量核专门设计用于加速稠密矩阵乘法计算的专用单元，对非结构化稀疏矩阵乘法计算的效率较低，因此会造成模型推理速度的大幅下降。Xia H,Zheng Z,Li Y,et al.Flash-llm:Enabling cost-effective and highly-efficien

20、t large generative model inference with unstructured sparsity.VLDB 2023.稀疏化技术u非结构化稀疏Xia H,Zheng Z,Li Y,et al.Flash-llm:Enabling cost-effective and highly-efficient large generative model inference with unstructured sparsity.VLDB 2023.针对非结构化稀疏矩阵乘法较慢的问题，Flash-LLM提出将稀疏矩阵转化为密集矩阵，每次进行计算前都将稀疏矩阵转化为这种稠密格式Ti

21、led-CSL密集存储格式将稀疏矩阵分成多个大小固定的Tiles用数组TileOffsets存储每个Tile的非零元素的数量用数组NonZeros依次存储每个Tile的非零元素NonZeros中的每个N都存储着非零元素值与其位置稀疏化技术u非结构化稀疏Xia H,Zheng Z,Li Y,et al.Flash-llm:Enabling cost-effective and highly-efficient large generative model inference with unstructured sparsity.VLDB 2023.双缓冲计算重叠的计算流水线问题：张量核进行计算前

22、，需要进行矩阵数据加载，而加载时张量核空闲，造成了核使用率低解决方案：Flash-LLM提出了一种双缓冲计算重叠的计算流水线。优势：采用这种新的流水线进行计算能够减少GPU的空闲时间。有效提升了模型推理的效率。计算重叠：可以看出每次迭代时，都会在一个缓冲区加载数据，另一个缓冲区计算矩阵乘法。稀疏化技术Flash-LLM与多个baselines计算性能的对比结果上述结果表明，Flash-LLM在非结构化稀疏矩阵乘法的性能方面具有显著优势，能够更好地支持大规模生成模型的推理。1个GPU的模型吞吐量对比2个GPU的模型吞吐量对比Xia H,Zheng Z,Li Y,et al.Flash-llm:E

23、nabling cost-effective and highly-efficient large generative model inference with unstructured sparsity.VLDB 2023.知识蒸馏u知识蒸馏基础理论性能较好、复杂度较高的模型Teacher模型Student模型蒸馏压缩知识蒸馏（Knowledge Distillation）旨在将知识从大型复杂模型（教师模型）转移到更小更简单的模型（学生模型），使得学生模型能够在性能上接近教师模型，同时具有较少的计算资源需求，从而实现模型压缩。知识蒸馏的核心公式为蒸馏损失函数：其中78是学生模型的交叉熵损失

24、，9:是学生模型与教师模型软标签之间的蒸馏损失。较小的、轻量化的模型学习模仿知识蒸馏Gu Y,Dong L,Wei F,et al.MiniLLM:Knowledge distillation of large language modelsC.ICLR 2024.u大语言模型的知识蒸馏黑盒（Black-Box）知识蒸馏中，学生模型只能访问教师模型的输出（闭源大模型），而无法直接访问教师模型的内部结构、参数或中间层的激活值。其中黑盒知识蒸馏又分为“思维链蒸馏”、“上下文学习蒸馏”以及“指令遵循蒸馏”三种方法。大语言模型上的知识蒸馏工作可以划分为两类，黑盒知识蒸馏和白盒知识蒸馏。白盒（White

25、-Box）知识蒸馏中，学生模型不仅可以访问教师模型的输出，还可以访问教师模型的内部结构、参数和中间层的激活值（开源大模型）。学生模型可以直接学习教师模型的中间层特征或特定参数，从而获得更丰富的知识。黑盒知识蒸馏白盒知识蒸馏知识蒸馏Gu Y,Dong L,Wei F,et al.MiniLLM:Knowledge distillation of large language modelsC.ICLR 2024.u大语言模型的知识蒸馏标准知识蒸馏中的前向KL散度（Forward KLD）会迫使学生模型试图覆盖教师模型的所有细节信息，即使那些细节对任务并不重要，这在大模型知识蒸馏中是不实际的，因为小

26、模型的能力有限，这会导致资源浪费的同时，使得学生模型在真正重要的部分表现不佳。反向KL散度（Reverse KLD）选择从学生模型中采样学习样本，允许学生模型可以结合自身学习能力的同时，从教师模型中学习对于学生模型最重要的知识，以避免资源的浪费，从而在关键任务上表现更好。在前面损失函数基础上，采用多种优化算法进一步改进学习：单步分解：这是将每步的生成质量从损失的梯度中单独提出来，以减少训练时的方差并加速收敛，提升单步生成质量。教师指导的采样：在采样时混合教师和学生模型的分布。长度正则化：当前的损失容易导致蒸馏后的模型产生较短的序列，因此增加了一个正则化到损失函数中，以避免KL散度的累积值过小。

27、知识蒸馏u大语言模型的知识蒸馏Gu Y,Dong L,Wei F,et al.MiniLLM:Knowledge distillation of large language modelsC.ICLR 2024.知识蒸馏Gu Y,Dong L,Wei F,et al.MiniLLM:Knowledge distillation of large language modelsC.ICLR 2024.MiniLLM方法在不同体量大模型上的实验结果与其他知识蒸馏方法相比，MiniLLM方法学到了三种教师大模型更多的知识，性能表现更优。MiniLLM方法在各种小规模的学生模型上达到超越原教师模型的性

28、能。*表示学生模型性能超越了教师模型。可以用一半的参数达到原本的性能，实验效果优于其他蒸馏方法。u基本理论原始数据可能有极多的维度，难以储存与使用我们希望实现数据压缩，只保留原数据最主要的信息，去除冗余信息将数据向方差最大的方向投影从而得到最具代表性的特征通过这种方式可以实现数据的压缩例如左图中，将二维数据降为一维经典分解理论：PCA分解低秩分解投影向u基本理论经典分解理论：SVD分解将原始矩阵分解为左右奇异矩阵与特征值矩阵左右奇异矩阵的行列代表原矩阵中的成分对应的特征值大小则代表相应成分的信息量其中r被称为分解矩阵的秩，它代表了原矩阵中被保留的成分多少。通过将模型参数转为低秩形式，我们可以有

29、效压缩模型参数，例如，在Llama3-8B中，保留50%的矩阵秩，即可压缩超过20亿的模型参数，大大减少部署成本。删除奇异矩阵中不重要的成分实现数据的压缩例如左图中，仅维度为r的部分被保留低秩分解Tucker分解可以被视作一种高阶PCA.将张量分解为核心张量在每个mode上与矩阵的乘积Tensor Train分解将一个N阶张量分解成了2个二阶张量和N-2个三阶张量的乘积,u基本理论适应大模型：张量分解技术分解结构更为复杂的大模型参数低秩分解C9;55;51 2 3Nu基本理论原参数矩阵Wm维n维参数分解m维R维R维n维低秩裁剪去除非主要成分，实现参数压缩其中r 形态素维度单词数量形态素数量

30、Transformer语言模型词向量参数量分析语素增强的低秩近似技术=3)*#+,*#-,)秩阶低维向量张量积传统基于张量积进行embedding压缩Gan G,Zhang P,Li S,et al.MorphTE:Injecting Morphology in Tensorized EmbeddingsJ.NeurIPS 2022.词表矩阵形态素矩阵通过少数量的、低维的语素向量替代原始的词向量表示矩阵，保持了模型性能，从而减少模型参数保持原模型的有效性参数压缩比例超过20倍MorphTE方法在词嵌入矩阵模块上的计算与实验分析根据形态素分割单词、组合低维张量语素增强的低秩近似技术低维向量：张量

31、积单词嵌入的基本单元Morpheme：构成一个词的基本单位为形态素赋予意义，引入先验知识词语的形态组成与语言现象实验结果滨髌嫔宾语素增强的低秩近似技术LORA:LOW-RANK ADAPTATION Hu E J,Shen Y,Wallis P,et al.Lora:Low-rank adaptation of large language modelsJ.arXiv preprint arXiv:2106.09685,2021.Dou S,Zhou E,Liu Y,et al.LoRAMoE:Alleviating World Knowledge Forgetting in Large La

32、nguage Models via MoE-Style PluginC.ACL 2024.冻结模型原参数，仅使用可训练的低秩分解矩阵进行模型高效微调A、B为可训练矩阵用于在微调中学习权重变化原模型参数规模过大，微调成本高LoRA已经成为大模型时代最常用的模型微调方式，有充分的研究价值。例如，近期的研究将LoRA与MoE架构结合，使一部分 LoRA 专注于利用世界知识来解决下游任务，以减轻世界知识边缘遗忘。参数共享Ainslie J,Lee-Thorp J,de Jong M,et al.GQA:Training Generalized Multi-Query Transformer

33、 Models from Multi-Head CheckpointsC.EMNLP 2023.Shazeer N.Fast Transformer Decoding:One Write-Head isAll You NeedJ.arXiv preprint arXiv:1911.02150,2019.问题：MHA中，每个“头”都需要独立工作，这就需要很多资源（计算量和内存）。当头数很多时，这会变得很麻烦，就像请了很多朋友参加聚会，每个人都要吃饭，费用自然很高。Grouped-Query AttentionGQAMulti-Query AttentionMQAMulti-head Attent

34、ionMHA解决方案：多个查询头（Query）共享相同的键（Key）和值（Value）矩阵。就像让几个朋友共同用同一个资源，不用每个人都从头开始找。这种共享资源的方式大大减少了需要处理的内容，从而节省了资源。参数共享Ainslie J,Lee-Thorp J,de Jong M,et al.GQA:Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsC.EMNLP 2023.Shazeer N.Fast Transformer Decoding:One Write-Head isAll Y

35、ou NeedJ.arXiv preprint arXiv:1911.02150,2019.多查询注意力（Multi-Query Attention,MQA）让所有的头之间共享同一份 Key 和 Value 矩阵，每个头只单独保留了一份 Query 参数，从而大大减少 Key 和 Value矩阵的参数量。分组查询注意力（Grouped-Query Attention,GQA）将查询头分成 G 组，每个组共享一个 Key 和 Value 矩阵。GQA-G 是指具有 G 组的 Grouped-query Attention。优点：减少了计算的复杂度和内存的占用，可以让模型运行得更快，占用更少的资源

36、。KV-cache核心思想：将之前计算的键和值存储起来，当处理新的输入时，可以直接利用这些已缓存的键和值，而不是重新计算整个序列的键和值。优势：效率提升：减少重复计算，特别是在处理长序列时，可以显著提高处理速度；实时性增强：适用于实时更新的场景，如在线学习或流式处理，可快速响应新数据。参数共享Ainslie J,Lee-Thorp J,de Jong M,et al.GQA:Training Generalized Multi-Query Transformer Models from Multi-Head CheckpointsC.EMNLP 2023.Shazeer N.Fast Tran

37、sformer Decoding:One Write-Head isAll You NeedJ.arXiv preprint arXiv:1911.02150,2019.MQA和GQA在不同数据集上推理速度、预测效果的实验结果分析与同体量的MHA大模型相比，GQA的平均推理时间加速了约5.39倍，在多个数据集上出现性能的轻微衰减。与MQA相比，GQA保持了更高的性能表现。采用MQA和GQA两种注意力后模型的平均推理时间缩短了5-6倍，同时模型的平均性能几乎不变。与同体量的MHA大模型相比，MQA的平均推理时间加速了约6.29倍，但在多个数据集上出现性能的小幅衰减。结合硬件特点的技术减少存取操

38、作次数：减少语言模型自回归计算过程对HBM(内存)访问次数，充分利用SRAM内存，通过融合计算，实现一次存取，加速运算；分块优化计算：优化Softmax归一化计算步骤，通过对注意力计算过程中的K和V矩阵进行分块，解决超出SRAM缓存问题uFlash Attention结合硬件特点的技术递归解码阶段，可以将Detokenize和下一个token的Computing计算在CPU和GPU上并行计算，掩盖掉前面生成单词的Detokenize的时间TokenizerComputingSamplingReturnPrefill（10%）Decoding（90%）ComputingSamplingDetok

39、enizereturnComputingDetokenizereturnSamplingComputingDetokenizereturnSamplingCPUGPUCPUGPUComputing(82%Time)Sampling(10%Time)ReturnDetokenize(8%Time)并行解码策略可减少7.2%的推理时间，提升吞吐量，不影响模型效果各类轻量化方法总结从以下多个角度进行评价压缩方案最高压缩率是否需要额外训练可否自由控制压缩比例可优化结构可否加速模型效果可否联合使用量化32倍通常不需要否全部参数是位宽低时显著变差是稀疏化自适应是是全部参数是稀疏率变大时显著变差是知识蒸馏自

40、适应是是全部参数是属于辅助增强算法是参数共享有限通常不需要是层级结构块状结构否多层共享效果显著变差是低秩近似自适应是是全部参数一些低阶的分解方案可加速效果保持能力较强是目录01大语言模型轻量化的技术需求02大语言模型轻量化的技术概览03大语言模型轻量化技术的详细讲解04大语言模型轻量化技术的未来展望量子计算u大模型轻量化的新研究路径量计算架构上的轻量化技术量变分线路经典计算机架构上的模型轻量化技术量化稀疏化知识蒸馏低秩分解其他变换变换万能（通用）近似性定理神经络神经络能够逼近任意复杂度的连续函数量模型可以实现任何可能的傅叶系数集Schuld,M.,Sweke,R.,and Me

41、yer,J.J.Effect of data encoding on the expressive power of variational quantum machine-learning models.Physical Review A,103(3):032430,2021.使用三角函数激活使用变分量子线路激活神经元经典隐式神经表示随神经网络参数线性增长的傅里叶序列表表达能力随量子比特数量指数增长的傅里叶序列表达能力引入随机傅里叶特征更少的参数和更精确的表示大量的参数和有限的表示精度量子优势探索数据重上传量子线路的指数级增长的傅里叶序列拟合能力指数长的频谱线性长的频谱经典隐式神经表示量子隐

42、式神经表示量子隐式神经表征Jiaming Zhao,Wenbo Qiao,Peng Zhang*,et al.Quantum Implicit Neural Representations.ICML,2024(CCF-A)学术任职线性层扩展频谱和调整频率量子层扩展频谱2)对于一个大小为dd!个qubits的数据重上传量子线路，它能表征的傅里叶级数的的频谱大小为:#,#=dLdL%!1)数据重上传量子线路的本质是傅里叶级数：=&,&,()*)#,3)在线性层的帮助下，频谱可以进一步扩展，从(2dL+1)%!扩展到(3-1)L+1)%!结论在最佳条件下，数据重上传量子电路表示傅立叶级数的能力随着电

43、路的大小呈指数增长分析数据重上传电路的频谱Jiaming Zhao,Wenbo Qiao,Peng Zhang*,et al.Quantum Implicit Neural Representations.ICML,2024(CCF-A)推导量子隐式神经表征了语言模型学术任职结果变分量子线路作为激活函数插入每层网络从理论上揭示了某种量子线路具有指数级增长的傅里叶序列拟合能力量子机器学习从理论到实践的一次跨越，为人工智能提供了量子视角的轻量化方案高频拟合能力更少的训练参数精细化表示量子隐式神经表征Jiaming Zhao,Wenbo Qiao,Peng Zhang*,et al.Quantum

44、Implicit Neural Representations.ICML,2024(CCF-A)在信号表征、超分辨率和图像生成等众多任务中展现出精度和参数优势量子隐式神经表征Jiaming Zhao,Wenbo Qiao,Peng Zhang*,et al.Quantum Implicit Neural Representations.ICML,2024(CCF-A)未来展望05000100001500020000参数量（亿）体型庞大小型化体型庞大量子化通用计算机通用人工智能量子机器学习晶体管微型个人电脑人工智能也许也会像通用计算机的发展历程一样不断被轻量化，其中量子机器学习有望扮演重要角色量

45、子AI模型微型个人电脑20世纪第一台通用计算机?大语言模型量计算集成电路大模型轻量化请批评指正LLM稀疏轻量化技术张静2024.8.24为什么考虑稀疏化p 在轻量化三大要素中，低秩近似方法尤其是高阶的方法，可实现较高的压缩率及较优的模型效果，然而计算速度方面的优势并不凸显。p稀疏化技术具备较强降低计算成本与速度的能力。p 因此，通过对稀疏化技术的系统性研究，探索低秩近似与稀疏化补充结合的可行性。存储（参数量）效果（模型效果）速度（计算成本）压缩三大因素03在大模型上的稀疏化02在Transformer上的稀疏化04未来展望目录01稀疏化的背景稀疏轻量化背景20世纪八九十年代p在神经网络中，Le

46、Cun等人提出了Optimal Brain Damage方法，该方法通过剪枝不重要的权重来优化网络结构（LeCun et al.,1989）。pHassibi和Stork提出了Optimal Brain Surgeon方法，通过更精确的权重修剪进一步提高了模型的稀疏性和效率（Hassibi&Stork,1993）。这些早期探索拉开了后续稀疏轻量化技术发展的大门。Transformer时代前的稀疏化技术发展稀疏轻量化背景20世纪末p在1990年代，L0正则化被引入神经网络稀疏化，通过惩罚非零权重，促使模型自发减少不必要的参数（Tibshirani,1996）。pOlshausen和Field的研

47、究表明，稀疏编码通过学习稀疏表示可以有效压缩信息，使其在神经科学和计算机视觉中得到了广泛应用（Olshausen&Field,1997）。这些技术推动了稀疏轻量化技术的广泛应用。Transformer时代前的稀疏化技术发展稀疏轻量化背景21世纪初p2000年代，压缩感知理论的提出推动了稀疏轻量化的发展。研究表明，通过较少采样重构信号，可以在不显著损失信息的情况下大幅降低计算量（Donoho,2006）。p模型剪枝技术被提出，通过移除冗余参数，在保持模型性能的同时显著降低了计算复杂度（Han et al.,2015）。Transformer时代前的稀疏化技术发展以上发展为Transformer网

48、络的稀疏化奠定了基础稀疏轻量化背景大模型稀疏化通过减少参数的密集度来减少计算成本和存储成本。主要分为结构稀疏化和非稀疏化两种。非结构化稀疏与结构化稀疏：稀疏化三大要点：1.稀疏化评估：使用某种标准（如权重的绝对值、梯度等）评估各参数的重要性。2.稀疏化：删除或置零评估为不重要的参数。3.微调：对稀疏化后的模型进行再训练，以恢复和提升模型性能。0000Delete or 0 稀疏化基本类型参数稀疏稀疏轻量化背景稀疏化基本类型参数稀疏结构化与非结构化的对比p结构化：结构具有规则性，并行计算架构中可被高效利用；由于剪枝是成块进行的，可能会移除更多有用的信息，因此精度损失可能较大。p非结构化：非结构

49、化稀疏在保持模型精度方面往往优于结构化稀疏；剪枝后的稀疏性没有规则性，使得硬件难以高效利用，可能导致不规则的内存访问，影响计算效率。稀疏轻量化背景中间表示的稀疏化p 通过引入激活函数等方式。使模型的中间表示部分元素稀疏化为0，减少计算成本。p 采用如聚类等方式，直接减少中间表示的尺寸，从而降低计算成本。稀疏化基本类型中间表示稀疏稀疏轻量化背景大模型的自适应计算轻量化旨在通过动态分配计算资源以优化模型性能和效率。根据输入数据的复杂度和模型的推理需求，自适应地调整计算路径，从而在保证精度的前提下减少计算开销。自适应激活策略：5()为门控函数，用于选择性激活对应的子网络 5()。早停策略：根据输入数

50、据的复杂度动态决定网络层的深度，在满足一定条件时提前终止计算。=(56785()5()稀疏化基本类型结合自适应计算策略稀疏轻量化背景大模型稀疏化的过去和现在关注点Transformer稀疏化的更关注什么？p主要关注预训练阶段的稀疏化p更关注参数与训练速度生成式大模型稀疏化的更关注什么？p主要普遍行业更关注微调与推理的计算成本p更关注吞吐量、带宽及显存等受限的成本稀疏轻量化背景大模型稀疏化的过去基于Transformer等基础组件的工作大模型稀疏化的现在大规模模型的稀疏化实践结构化稀疏MoE+LoRA微调稀疏非结构稀疏端侧稀疏化非结构稀疏结构化稀疏混合型稀疏化03在大模型上的稀疏化02在Tra

51、nsformer上的稀疏化04未来展望目录01稀疏化的背景本章脉络大模型稀疏化结构型稀疏非结构稀疏结构化剪枝Attention计算稀疏非结构化剪枝大模型稀疏化的过去Transformer时代Kwon W,Kim S,Mahoney M W,et al.A fast post-training pruning framework for transformersJ.NeurIPS 2022.结构化剪枝挑战结构性稀疏一般存在两个问题p结构化稀疏由于限制了剪枝元素的选择自由，会导致模型效果的下降；p进行结构化稀疏的最后一步需要进行微调，微调全模型会产生大量的计算成本。大模型稀疏化的过去Transfo

52、rmer时代1.基于Fisher信息矩阵对角化的掩码搜索，以确定各层修剪比例；2.基于层内相互作用的掩码重排列以确定各层的修剪位置，找到最优二值掩码；3.基于线性最小二乘的掩码微调，以找到最优实值掩码，尽可能恢复模型性能。掩码量模型参数量Kwon W,Kim S,Mahoney M W,et al.A fast post-training pruning framework for transformersJ.NeurIPS 2022.结构化剪枝大模型稀疏化的过去Transformer时代确定修剪比例：针对Cost优化问题，由于Hessian矩阵难以精确构建，因此将其近似为Fisher信息矩

53、阵对角化。Kwon W,Kim S,Mahoney M W,et al.A fast post-training pruning framework for transformersJ.NeurIPS 2022.Hessian矩阵是什么，其复杂度是多少？Fisher信息矩阵是什么？为什么与Hessian近似帮助评估每个参数块对损失函数的二阶敏感性当损失函数为负对数似然时大模型稀疏化的过去Transformer时代最优二值掩码：Fisher块对角近似与热启动贪婪搜索相结合，以避免由于不同掩码变量间存在的相互关系导致的性能下降。掩码微调：非零变量被调整为任意实数值，通过线性最小二乘法进行逐层重构

54、，以使剪枝后的模型恢复其准确性。Kwon W,Kim S,Mahoney M W,et al.A fast post-training pruning framework for transformersJ.NeurIPS 2022.每层的输出大模型稀疏化的过去Transformer时代应用于具有不同 FLOPs 约束的 BERTBASE 和 DistilBERT 的准确性。与其他蒸馏方法的时间比较在仅降低1%效果的约束下，满足约束条件的最大延迟加速Kwon W,Kim S,Mahoney M W,et al.A fast post-training pruning framework for

55、 transformersJ.NeurIPS 2022.自注意机制：需要计算输入文本序列中任意两个单词之间的关联。二次复杂度稀疏利用稀疏化技术进行低秩逼近，减少不必要的计算以加速模型。注意力机制加速大模型稀疏化的过去Transformer时代大模型稀疏化的过去Transformer时代稀疏因式分解结合空洞自注意力在图像，文本和语音上Bits per byte指标都达到最低Child R,Gray S,Radford A,et al.Generating long sequences with sparse transformers.arXiv:1904.10509(;)()稀疏化Transfo

56、rmer结构化稀疏大模型稀疏化的过去Transformer时代局部窗口稀疏化+部分全局注意力在text8和enwik8的实验显示同等参数下获得到更好的效果Beltagy I,Peters M E,CohanA.Longformer:The long-document transformer.arXiv:2004.05150(;)(+)局部稀疏化结构化稀疏大模型稀疏化的过去Transformer时代动态路由稀疏化以更少的计算成本获得到更好的效果RoyA,Saffar M,VaswaniA,et al.Efficient content-based sparse attention with ro

57、uting transformersJ.TACL,2021.;or 动态路由算法结构化稀疏Wang N.,Gan G.,Zhang P.,et al.ClusterFormer:Neural ClusteringAttention for Efficient and Effective Transformer J.ACL,2022,1:23902402.神经聚类过程输入序列(.=(./.012 (./;(=C D.012E(.+关系矩阵聚类中心更新.3=(:.)聚类中心矩阵5,=(,)排序后的表示神经聚类方法：学习聚类中心的表示，并在输入单词序列上进行端到端的聚类。大模型稀疏化的过去Trans

58、former时代神经聚类方法结构化稀疏Wang N.,Gan G.,Zhang P.,et al.ClusterFormer:Neural ClusteringAttention for Efficient and Effective Transformer J.ACL2022,1:23902402.神经聚类注意力：对每组查询（Query）、键（Key）和值（Value）块进行并行的注意力机制计算。M!=(M!,M!,M!)M=(M,M#)Model Complexity：()大模型稀疏化的过去Transformer时代Wang N.,Gan G.,Zhang P.,et al.Cluste

59、rFormer:Neural ClusteringAttention for Efficient and Effective Transformer J.ACL,2022,1:23902402.(1)翻译任务(2分类任务(3)时间测试(4)显存测试The longer the sequence,the more noticeable the efficiency improvement大模型稀疏化的过去Transformer时代大模型稀疏化的过去Transformer时代Jaszczur S,ChowdheryA,MohiuddinA,et al.Sparse is enough in sca

60、ling transformersJ.NeurIPS 2021.在FFN层和QKV分别采用了不同的稀疏化策略：在FFN层中，每个块只允许一个浮点数非零，论文提出了一个基于低秩分解思想的控制器，最终输出一个独热编码：在Attention层中，该工作使用了两种策略，首先是乘法密集层将的权重矩阵变成(+)的矩阵，其中M=，并通过D,F=,D,F的方式计算输出。同时可以结合二维卷积层来降低模型的参数量。Transformer模型的问题：训练和微调计算成本高昂；解码时间加速20倍 FFN与Attention稀疏策略非结构化稀疏大模型稀疏化的过去Transformer时代 Some thoughtsp可以

61、看到在Transformer组件上的稀疏化工作大多是需要再次进行训练，在超大模型规模下，这种稀疏成本是难以让人接受的。p如何将现有方法与大模型解耦，类似于控制器的学习改装为LoRA的形式，减少稀疏化技术实现本身的时间成本，也是大模型稀疏化主要关注的问题。目录03在大模型上的稀疏化02在Transformer上的稀疏化04未来展望01稀疏化的背景本章脉络模型稀疏化结构型稀疏结构稀疏结构化剪枝早停策略端侧稀疏参数稀疏表示稀疏混合式稀疏化+低秩近似结构型稀疏结构稀疏参数稀疏混合式LLM稀疏化技术Ma X,Fang G,Wang X.Llm-pruner:On the structural pruni

62、ng of large language modelsJ.NeurIPS 2023.大语言模型的参数量更多，不同参数剪枝元素间存在大量的依赖性关系，贸然剪枝会造成模型效果下降。挑战参数块间存在依赖性关系 LLM剪枝结构稀疏化 MLP型分组 Attention型分组层型分组LLM稀疏化技术Ma X,Fang G,Wang X.Llm-pruner:On the structural pruning of large language modelsJ.NeurIPS 2023.重要性估计剪枝LoRA微调重要性估计方面：利用损失的偏差来度量来移除对模型预测影响最小的组，公式计算了当某个参数被置

63、为零时，损失变化的影响：剪枝：对分组进行聚合，按照相加、乘或门控等操作，聚合出分组的重要性得分，并进行剪枝；利用LoRA的方式对剪枝后的模型进行微调：LLM稀疏化技术Ma X,Fang G,Wang X.Llm-pruner:On the structural pruning of large language modelsJ.NeurIPS 2023.在参数量、MACs及延迟等多个轻量化性能指标上都展现了有益的效果；传统的剪枝方法在较小稀疏率下，效果出现显著下降，而LLM-Pruner能进行更高倍压缩；效果随参数量的增大而上升，符合LLM scaling law。这是一种不需要牺牲带宽的LL

64、M加速方法；在LLM推理过程中，可以对简单实例使用浅层，对困难实例使用深层；对LLM的特征进行统计分析并选择logits构建特征，采用高效的SVM和CRF等方法来促进提前退出策略；轻量化后LLaMA2-13B性能-3%+0%92.58计算量-40%-20%100在GLUE Benchmark数据集上，减少了40%的计算量，并实现了效果的稳定。Fan S,Jiang X,Li X,et al.Not all layers of llms are necessary during inferenceJ.判断推理是否该提前终止LLM稀疏化技术早停策略结构稀疏化LLM稀疏化技术p早停思想本身是基于一

65、种普适性的启发，具备不同复杂度的输入所需要的层数是有差别的，现有的方法通过引入外部“控制器”的方式实现早停判断p是否可以通过扩散模型一些自适应控制计算的方式（Cheng Lu,2022），结合大模型本身的结构特点，通过内部误差计算的方式实现早停？Some thoughtsLLM稀疏化技术Frantar,Elias,and DanAlistarh.Sparsegpt:Massive language models can be accurately pruned in one-shot.ICML2023.SparseGPT非结构性稀疏挑战：在巨型LLM上，一次性剪枝方法通常需要花费大量的时间来

66、计算完整的最优解。计算复杂度：()()基于OBS更新方法的理论，当修剪某一参数时，此时调整其他column对应的权重，并且局部更新Hessian矩阵，将会弥补剪枝该参数造成的误差。LLM稀疏化技术Frantar,Elias,and DanAlistarh.Sparsegpt:Massive language models can be accurately pruned in one-shot.ICML2023.50%的稀疏率下仍能保持较优的效果 SparseGPT非结构性稀疏表一：在WikiText2上的OPT模型PPL结果图一：BLOOM 176B上的稀疏率实验相较于其他方法，在较高稀疏率

67、下能保持模型的效果LLM稀疏化技术Wang H,Ma S,Wang R,et al.Q-Sparse:All Large Language Models can be Fully Sparsely-ActivatedJ.比密集模型更出色的推理最优缩放律在激活率50%左右时，能达到与源模型相近的结果替代ReLU，用Top-K函数实现稀疏化表示稀疏化非结构性稀疏LLM稀疏化技术Anagnostidis S,Pavllo D,Biggio L,et al.Dynamic context pruning for efficient and interpretable autoregressive t

68、ransformersJ.NeurIPS 2023.如下公式所示，G,HI为“重要性”累积值，一旦其等于0，此标记被丢弃，其效果是不可逆的，因为它将对所有后续标记以及随后的生成过程保持丢弃状态缓存区的激活状态被清除 KV表示稀疏化非结构性稀疏LLM稀疏化技术Anagnostidis S,Pavllo D,Biggio L,et al.Dynamic context pruning for efficient and interpretable autoregressive transformersJ.NeurIPS 2023.随稀疏率变化，PPL呈现Scaling Law的趋势随着稀疏率的增加

69、Cache Memory逐渐降低LLM稀疏化技术p以上方法倾向于选择值较小的元素进行稀疏化操作，进一步能否通过观察数据分布，通过数据分布的特点提出更合理的稀疏化策略也是一种有效的思路。Some thoughtsLLM稀疏化技术Zhang,Zhenyu,et al.H2o:Heavy-hitter oracle for efficient generative inference of large language models.NeurIPS 2023.观察：在计算注意力得分时，仅有一小部分标记对结果的贡献最大。（1）这些标记往往与其他标记有较强的关联性，它们频繁地与其他标记一起出现；（2）移

70、除它们会导致显著的性能下降。KV表示稀疏化非结构性稀疏LLM稀疏化技术Zhang,Zhenyu,et al.H2o:Heavy-hitter oracle for efficient generative inference of large language models.NeurIPS 2023.提出了Heavy-Hitters Oracle（H2O），是一种动态子模优化算法，能够动态平衡最近的标记和Heavy-Hitters标记。具体而言，其提出了一种KV cache驱逐策略，每一步都增加最新的token及驱逐一个token。该方法被定义为了一个动态子模量的问题，经理论推导验证这种贪婪驱

71、逐策略得到的集合理论上是接近最理想集合状态的：KV表示稀疏化非结构性稀疏LLM稀疏化技术Zhang,Zhenyu,et al.H2o:Heavy-hitter oracle for efficient generative inference of large language models.NeurIPS 2023.将三大主流推理系统DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen的吞吐量提升了最多29倍、29倍和3倍。在相同的批量大小下，H2O可以将延迟减少最多1.9倍。在接近100%（95%）时的稀疏率下，H2O算法的效果才

72、出现显著下降。LLM稀疏化技术p关于Heavy-Hitters的观测可能与矩阵的秩有关。p能否建模更高阶的动态子模优化算法，设计KV cache驱逐策略来进一步提升模型效果。Some thoughtsLLM稀疏化技术Alizadeh K,Mirzadeh I,Belenko D,et al.Llm in a flash:Efficient large language model inference with limited memoryJ.ACL2024.问题：在将参数存储在闪存的基础上，如何减少模型参数读取的时间？为什么使用将模型参数存储在闪存中？由于大模型的参数量巨大，端侧的DRAM容量

73、有限，为了将大模型部署在端侧，只能将部分模型参数存储在闪存中。在模型推理时，如若需要使用相关参数，则从闪存中读取参数并使用。参数存储在闪存中产生的问题在模型推理时，频繁地从闪存中读取对应的参数会花费大量时间，造成模型推理速度的下降。端侧稀疏化技术非结构化稀疏LLM稀疏化技术Alizadeh K,Mirzadeh I,Belenko D,et al.Llm in a flash:Efficient large language model inference with limited memoryJ.ACL2024.解决方案一：减少参数的重复读取，通过“窗口化”保留下次迭代时需要的参数窗口化实现

74、原理：窗口化技术通过设定一个“窗口”，将推理过程中一部分神经元的激活状态保留在DRAM中，而不是每次都从闪存中重新加载这些神经元的数据。显著减少了与闪存之间的数据传输。处理的token列表激活神经元窗口需要删除的神经元保留的神经元新激活的神经元激活神经元窗口处理的token列表滑动窗口端侧稀疏化技术非结构化稀疏LLM稀疏化技术Alizadeh K,Mirzadeh I,Belenko D,et al.Llm in a flash:Efficient large language model inference with limited memoryJ.ACL2024.解决方案二：采用“行列捆

75、绑”技术，加快参数读取速度参数读取特点：在读取数据量相同的情况下，读取连续存储在一起的参数的速度会远远快于读取分散存储的参数。FFN神经元激活特点：在FFN中，第i个神经元的激活与上投影层的第i列和下投影层的第i行是相关的。当其激活时，则需要连续对上下投影层的i行i列进行读取。行列捆绑技术：将FFN中上下投影层的i行i列捆绑存储在同一内存中，方便连续读取。行列捆绑示意图闪存上投影层的列下投影层的行端侧稀疏化技术非结构化稀疏LLM稀疏化技术Alizadeh K,Mirzadeh I,Belenko D,et al.Llm in a flash:Efficient large language

76、model inference with limited memoryJ.ACL2024.吞吐量提高一倍，将整体延迟降低一半显著减少不同设置下的端到端延迟LLM稀疏化技术Xue Z,SongY,Mi Z,et al.PowerInfer-2:Fast Large Language Model Inference on a SmartphoneJ问题：在智能手机基础上，提升LLM的推理速度？智能手机中部署LLM的问题智能手机的内存容量有限，模型参数存储在闪存中。而单一命令队列无法支持并发访问，因为智能手机功能较弱，异构硬件和存储设备带宽较低，这使得I/O活动成为移动设备上LLM推理的常见瓶颈。限

77、制了LLM的推理速度。端侧稀疏化技术非结构化稀疏LLM稀疏化技术Xue Z,SongY,Mi Z,et al.PowerInfer-2:Fast Large Language Model Inference on a SmartphoneJ解决方案一：基于神经元粒度去存储模型权重，以智能手机的异构硬件环境，计算和I/O开销神经元权重：参考LLM in Flash，PowerInfer-2 抛弃了矩阵结构，进而采用神经元为单位存储模型权重。神经元粒度的推理：以神经元簇的粒度进行计算和I/O操作，神经元簇可以在计算过程中动态地由多个激活的神经元组成，神经元的数量由计算单元的计算能力决定。以此可以

78、减少神经元权重的读取次数。CPU动态使用闪存和DARM的神经元端侧稀疏化技术非结构化稀疏LLM稀疏化技术Xue Z,SongY,Mi Z,et al.PowerInfer-2:Fast Large Language Model Inference on a SmartphoneJ普通I/O管道(a)和PowerInfer-2(b)对比图解决方案二：将计算和 I/O 操作同步进行，隐藏I/O操作带来的延迟神经元集群级的I/O流水线：通一个CPU负责判断神经元的激活情况（Pred），然后把信息传递给计算线程。计算线程中的一些CPU负责从存储中读取 Gate 矩阵的权重（GIO），另一些CPU同时

79、计算 Gate 矩阵和输入向量的乘积（GC）。还有CPU负责读取 Up 和 Down 矩阵的权重（UDIO），并计算它们与输入向量的乘积（UDC）。效果：PowerInfer-2 中的这些计算和 I/O 操作也可以同时进行，大大提高了效率，减少了等待时间，从而实现了更快的 LLM 推理速度。LLM稀疏化技术Xue Z,SongY,Mi Z,et al.PowerInfer-2:Fast Large Language Model Inference on a Smartphone.arXiv:2406.06282 相较于其他方案，明显提高了解码速度能够在移动端进行Mixtral-47B的推理L

80、LM稀疏化技术Tan Z,Zhang X,Wei Z.WRP:Weight Recover Prune for Structured SparsityC.ACL2024.为了减少索引成本，NVIDIA提出了2:4模式剪枝，在每组四个连续的权重中，只保留两个非零值，并且以固定的方式进行剪枝。这种结构化稀疏能够更好地适应硬件加速器的计算架构。提出了权重恢复剪枝方法。通过恢复一小部分关键权重，提高模型性能，同时保持压缩的效率。LLM剪枝融合非结构化与结构化优势的2:4模式LLM稀疏化技术p2:4模式是一种结合结构化稀疏与非结构化稀疏的方法，使其平衡模型效果的同时适应硬件计算架构；p作为一种有益的思想

81、启发，能否迁移到如量化等技术上，解决类似的问题如结构式量化与非结构式量化的平衡问题？Some thoughtsLLM稀疏化技术p基于以上研究，我们发现无论是“控制器”的低秩参数块，还是利用LoRA技术微调稀疏模块，都是稀疏化+低秩近似结合的线索；p轻量化的思路：利用低秩近似来补充稀疏化在参数量和效果方面的不足，利用稀疏化来补充低秩近似在计算成本方面的不足；p近期的LoRA+MoE技术，是一种显式的稀疏+低秩近似的结合样例。稀疏化+低秩近似的思路稀疏化技术Zadouri T,stnA,AhmadianA,et al.Pushing mixture of experts to the limit:

82、Extremely parameter efficient moe for instruction tuningJ.如何提升大模型参数微调的效率也是近两年业界关注的重要问题。挑战以轻量化微调见长的LoRA，其相关参数矩阵仍然是稠密且全部使用的。受启发与全量参数微调与MoE相结合的思想，提出了极端提升参数效率的MoLoRA算法。LoRA+MoE微调稀疏化稀疏化技术Zadouri T,stnA,AhmadianA,et al.Pushing mixture of experts to the limit:Extremely parameter efficient moe for instruct

83、ion tuningJ.相较于全量微调，使用尽少量的参数，达到了相近的实验效果稀疏化技术Chengsong Huang,et al.LoraHub:Efficient Cross-Task Generalization via Dynamic LoRACompositionJ.COLM 2024.现有的 LoRA 模块被集成到一个统一的模块中，采用一组系数。应用无梯度算法来优化 w，根据来自未见任务的几个示例进行评估。执行 K 次迭代后，生成一个高度适应的组合 LoRA 模块，可将其与 LLM 结合以执行预期任务。LoRA+MoE微调稀疏化稀疏化技术在多种任务上进行了评估，综合取得了最好的实验

84、效果Chengsong Huang,et al.LoraHub:Efficient Cross-Task Generalization via Dynamic LoRACompositionJ.COLM 2024.LLM稀疏化技术 Some thoughtsp（改进思路）通常情况下，高阶的低秩近似参数可以拆分成多个小参数模块，相较于原始LoRA的MF分解形式，是否可以与稀疏机制更灵活的结合。p（改进思路）在大模型上实行稀疏化技术（如MoE和激活稀疏等）+低秩近似技术，实现效果、计算成本与参数量三者的平衡。目录03在大模型上的稀疏化02在Transformer上的稀疏化04LLM稀疏化的展望与期

85、待01稀疏化的背景展望与期待如何将稀疏化技术与硬件存储特性更好结合？p 寻求低效高存储与高效低存储组件的协同计算，寻找动态平衡；如何在较高稀疏率的情况下，保持模型的效果?p 在高稀疏率的状态下，结合其他的轻量化算法，如量化与低秩近似等，保证模型效果。如何在端侧达到存储、速度与效果的平衡？p 在量化技术打底的情况下，实行稀疏+低秩的融合，并结合密集存储结构及硬件计算的特点，实现端侧轻量化目标。稀疏率与效果的平衡p 在Scaling law的指导下，快速配置效果与成本平衡的大模型推理体系；实时在线微调p 结合稀疏化技术的微调手段，实现快速在线微调，助益大模型进化；端云高效推理体系建成p 端侧稀疏避免显存与带宽资源受限的问题，云侧稀疏助益吞吐量提升。端云协同助力大模型广泛布局。展望期待云侧大模型提供高并发服务，端侧大模型在极低资源条件下进行高效准确的响应，实现端云协同轻量化框架。用户个人企业研究机构交互交互调用API复杂问题提交复杂问题推理结果调度服务器展望经典端云协同架构维护高并发提交任务执行队列推断阶段用户1用户2用户N-1用户N服务用户数=总带宽/每用户占用带宽减少云侧大模型带宽占用模型稀疏低秩近似轻量化+效果好端侧请批评指正

天津大学：2024大模型轻量化技术研究报告（125页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

天津大学：2024大模型轻量化技术研究报告（125页）.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

相关推荐