图解分布式训练(二)——nn.DataParallel篇来自:AiGC面试宝典宁静致远2023年09月29日11:14为什么需要nn.DataParallel?多GPU并行训练的原...
大模型(LLMs)分布式训练面来自:AiGC面试宝典宁静致远2023年09月29日10:371.理论篇1.1训练大语言模型存在问题?即使目前显存最大的GPU也...
显存优化策略篇来自:AiGC面试宝典宁静致远2024年01月27日20:47一、介绍一下gradientaccumulation显存优化方式?正常情况下是一个batch之后...
大模型(LLMs)显存问题面来自:AiGC面试宝典宁静致远2023年09月16日21:001.大模型大概有多大,模型文件有多大?一般放出来的模型文件都是fp...
大模型(LLMs)训练集面来自:AiGC面试宝典宁静致远2023年12月24日00:331.SFT(有监督微调)的数据集格式?一问一答2.RM(奖励模型)的数据...
强化学习在自然语言处理下的应用篇来自:AiGC面试宝典宁静致远2024年01月27日20:47一、强化学习基础面1.1介绍一下强化学习?强化学习(Rein...
大模型(LLMs)强化学习——PPO面来自:AiGC面试宝典宁静致远2024年01月27日20:47一、大语言模型RLHF中的PPO主要分哪些步骤?大语言模型RLH...
大模型(LLMs)强化学习面来自:AiGC面试宝典宁静致远2024年01月27日20:471简单介绍强化学习?强化学习:(ReinforcementLearning)一种机...
大模型(LLMs)评测面来自:AiGC面试宝典宁静致远2023年09月29日10:231大模型怎么评测?当前superGLUE,GLUE,包括中文的CLUE的benchmark都在...
基于lora的llama2二次预训练来自:AiGC面试宝典宁静致远2024年01月27日20:47一、为什么需要对llama2做基于lora的二次预训练?加入中文训练语...
增量预训练(Pretrain)样本拼接篇来自:AiGC面试宝典宁静致远2024年01月27日20:47一、Pretrain阶段,为什么需要拼接拼接?为了提高pretrai...
大模型(LLMs)增量预训练篇来自:AiGC面试宝典宁静致远2024年01月27日20:471.为什么要增量预训练?有一种观点,预训练学知识,指令微调学...
大模型(LLMs)推理面来自:AiGC面试宝典宁静致远2023年10月22日22:431.为什么大模型推理时显存涨的那么多还一直占着?2.大模型在gpu和cpu...
如何使用PEFT库中LoRA?来自:AiGC面试宝典宁静致远2024年01月28日10:12一、前言本文章主要介绍使用LoRA对大模型进行高效参数微调,涉及内...
LoRA系列篇来自:AiGC面试宝典宁静致远2023年09月28日23:17一、LoRA篇1.1什么是LoRA?1.2LoRA的思路是什么?•LoRA系列篇•一、LoRA篇•1.1...
提示学习(Prompting)篇来自:AiGC面试宝典宁静致远2023年09月18日20:58一、为什么需要提示学习(Prompting)?在面对特定的下游任务时,...
适配器微调(Adapter-tuning)篇来自:AiGC面试宝典宁静致远2023年09月18日20:56一、为什么需要适配器微调(Adapter-tuning)?二、适配器...
RAG(Retrieval-AugmentedGeneration)评测面来自:AiGC面试宝典宁静致远2024年01月28日10:12一、为什么需要对RAG进行评测?在探索和优化RA...
大模型RAG经验面来自:AiGC面试宝典宁静致远2024年01月28日10:12一、LLMs已经具备了较强能力了,存在哪些不足点?在LLM已经具备了较强能力的...
大模型(LLMs)langchain面来自:AiGC面试宝典宁静致远2023年09月16日21:191.什么是LangChain?LangChain是一个强大的框架,旨在帮助开发人...