版权信息COPYRIGHT书名:⼤模型时代:ChatGPT开启通⽤⼈⼯智能浪潮作者:⻰志勇;⻩雯出版社:中译出版社出版时间:2023年4⽉ISBN:9787500173953字数:194千字本书由中译出版社有限公司授权得到APP电⼦版制作与发⾏版权所有·侵权必究代序AI⼤模型:当代历史的标志性事件及其意义“尝试找到如何让机器使⽤语⾔、形成抽象和概念、解决现在⼈类还不能解决的问题、提升⾃⼰,等等。对于当下的⼈⼯智能来说,⾸要问题是让机器像⼈类⼀样能够表现出智能。”——达特茅斯会议对⼈⼯智能(AI)的定义aCLIP(ContrastiveLanguage-ImagePre-Training)模型是OpenAI在2021年初发布的⽤于匹配图像和⽂本的预训练神经⽹络模型,可以说是近年来在多模态研究领域的经典之作。该模型直接使⽤⼤量的互联⽹数据进⾏预训练,在很多任务表现上达到了⽬前最⾼⽔平。DALL-E是⼀个可以根据书⾯⽂字⽣成图像的⼈⼯智能系统,该名称来源于著名画家达利(Dalí)和机器⼈总动员(Wall-E)。单纯的强化学习(RL)是机器学习的范式和⽅法论之⼀,⽤于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最⼤化或实现特定⽬标的问题。2020—2022年,在新冠疫情肆虐全球的阴霾⽇⼦⾥,⼈⼯智能创新的步伐完全没有停⽌。美国⼈⼯智能研究公司OpenAI异军突起:2020年4⽉发布神经⽹络Jukebox;2020年5⽉发布GPT-3,模型参数量为1750亿;2020年6⽉开放⼈⼯智能应⽤程序接⼝;2021年1⽉发布连接⽂本和图像神经⽹络CLIP;2021年1⽉发布从⽂本创建图像神经⽹络DALL-E;2022年11⽉,正式推出对话交互式的ChatGPT。相⽐GPT-3,ChatGPT引⼊了基于⼈类反馈的强化学习(RLHF)技术以及奖励机制。ChatGPT是⼈类科技史上的⾥程碑事件,在短短⼏个⽉席卷全球,速度之快超出⼈类最狂野的想象。ChatGPT证明了通过⼀个具有⾼⽔平结构复杂性和⼤量参数的⼤模型(foundationmodel,⼜称为“基础模型”)可以实现深度学习。此后,⼤模型概念受到前所未有的关注和讨论。但是,关于“⼤模型”定义,各⽅对其内涵的理解和诠释却莫衷⼀是,“横看成岭侧成峰,远近⾼低各不同”。尽管如此,这并不妨碍⼈们形成关于⼤模型的基本共识:⼤模型是⼤语⾔模型(LLM),也是多模态模型,或者是⽣成式预训练转换模型。GPT是⼤模型的⼀种形态,引发了⼈⼯智能⽣成内容(AIGC)技术的质变。⼤模型是⼈⼯智能赖以⽣存和发展的基础。现在,与其说⼈类开始进⼊⼈⼯智能时代,不如说⼈类进⼊的是⼤模型时代。我们不仅⽬睹,也身在其中,体验⽣成式⼤模型如何开始⽣成⼀个全新时代。1.何谓⼤模型⼈⼯智能的模型,与通常的模型⼀样,是以数学和统计学为算法基础的,可以⽤来描述⼀个系统或者⼀个数据集。在机器学习中,模型是核⼼概念。模型通常是⼀个函数或者⼀组函数,可以是线性函数、⾮线性函数、决策树、神经⽹络等各种形式。模型的本质就是对这个函数映射的描述和抽象,通过对模型进⾏训练和优化,可以得到更加准确和有效的函数映射。建⽴模型的⽬的是希望从数据中找出⼀些规律和模式,并⽤这些规律和模式预测未来的结果。模型的复杂度可以理解为模型所包含的参数数量和复杂度,复杂度越⾼,模型越容易过拟合。⼈⼯智能⼤模型的“⼤”,是指模型参数⾄少达到1亿。但是这个标准⼀直在提⾼,⽬前很可能已经有了万亿参数以上的模型。GPT-3的参数规模就已经达到了1750亿。除了⼤模型之外,还有所谓的“超⼤模型”。超⼤模型,是⽐⼤模型更⼤、更复杂的⼈⼯神经⽹络模型,通常拥有数万亿到数⼗万亿个参数。⼀个模型的参数数量越多,通常意味着该模型可以处理更复杂、更丰富的信息,具备更⾼的准确性和表现⼒。超⼤模型通常被⽤于解决更为复杂的任务,如⾃然语⾔处理(NLP)中的问答和机器翻译、计算机视觉中的⽬标检测和图像⽣成等。这些任务需要处理极其复杂的输⼊数据和⾼维度的特征,⽽超⼤模型可以从这些数据中提取出更深层次的特征和模式,提⾼模型的准确性和性能。因此,超⼤模型的训练和调整需要极其巨⼤的计算资源和数据量级、更加复杂的算法和技术、⼤规模的投⼊和协作。⼤模型和超⼤模型的主要区别在于模型参数数量的⼤⼩、计...
发表评论取消回复