27-适配器微调(Adapter-tuning)篇.pdf

27-适配器微调(Adapter-tuning)篇.pdf_第1页
27-适配器微调(Adapter-tuning)篇.pdf_第2页
适配器微调(Adapter-tuning)篇来自:AiGC面试宝典宁静致远2023年09月18日20:56一、为什么需要适配器微调(Adapter-tuning)?二、适配器微调(Adapter-tuning)思路?三、适配器微调(Adapter-tuning)特点是什么?四、AdapterFusion思路是什么?五、AdapterDrop思路是什么?六、AdapterDrop特点是什么?七、MAMAdapter思路是什么?八、MAMAdapter特点是什么?1.预训练模型参数量变多,在特定任务下进行全量微调即昂贵又耗时;•设计了Adapter结构(首先是一个down-project层将高维度特征映射到低维特征,然后过一个非线形层之后,再用一个up-project结构将低维特征映射回原来的高维特征;同时也设计了skip-connection结构,确保了在最差的情况下能够退化为identity),并将其嵌入Transformer的结构里面;•在训练时,固定住原来预训练模型的参数不变,只对新增的Adapter结构进行微调。同时为了保证训练的高效性(也就是尽可能少的引入更多参数)。•特点:•通过在Transformer层中嵌入Adapter结构,在推理时会额外增加推理时长。•思路:一种融合多任务信息的Adapter的变体,在Adapter的基础上进行优化,通过将学习过程分为两阶段来提升下游任务表现。•思路:在不影响任务性能的情况下,对Adapter动态高效的移除,尽可能的减少模型的参数量,提高模型在反向传播(训练)和正向传播(推理)时的效率。•特点:•通过从较低的Transformer层删除可变数量的Adaper来提升推理速度;•当对多个任务执行推理时,动态地减少了运行时的计算开销,并在很大程度上保持了任务性能。•思路:一种在Adapter、PrefixTuning和LoRA之间建立联系的统一方法。最终的模型MAMAdapter是用于FFN的并行Adapter和软提示的组合。•特点:•整体上来说,最终的模型MAMAdapter效果会优于单个高效微调方法。扫码加查看更多知识星球

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

发表评论取消回复

参与评论可获取积分奖励  
微风舍
实名认证
内容提供者

微风舍,风起于青萍之末,浪成于微澜之间,舍是漏舍,唯吾德馨。

确认删除?
回到顶部