1-大模型（LLMs）基础面.pdf

下载本文档

阅读 203
下载 6
格式 pdf
大小 481.56 KB
约3页
2025-02-05 发布于河南
收藏
评论
点赞(0)
海报
举报

大模型（LLMs）基础面来自：AiGC面试宝典宁静致远2023年09月28日21:501目前主流的开源模型体系有哪些？目前主流的开源模型体系分三种：2prefixDecoder和causalDecoder和Encoder-Decoder区别是什么？prefixDecoder和causalDecoder和Encoder-Decoder区别在于attentionmask不同：•第一种：prefixDecoder系•介绍：输入双向注意力，输出单向注意力•代表模型：ChatGLM、ChatGLM2、U-PaLM•第二种：causalDecoder系•介绍：从左到右的单向注意力•代表模型：LLaMA-7B、LLaMa衍生物•第三种：Encoder-Decoder•介绍：输入双向注意力，输出单向注意力•代表模型：T5、Flan-T5、BART•Encoder-Decoder：•在输入上采用双向注意力，对问题的编码理解更充分•适用任务：在偏理解的NLP任务上效果好•缺点：在长文本生成任务上效果差，训练效率低；•causalDecoder：•自回归语言模型，预训练和下游应用是完全一致的，严格遵守只有后面的token才能看到前面的token的规则；•适用任务：文本生成任务效果好•优点：训练效率高，zero-shot能力更强，具有涌现能力•prefixDecoder：•特点：prefix部分的token互相能看到，causalDecoder和Encoder-Decoder折中；•缺点：训练效率低扫码加查看更多3大模型LLM的训练目标是什么？根据已有词预测下一个词，训练目标为最大似然函数：训练效率：PrefixDecoder

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容