作者简介李福林一个在IT领域摸爬滚打十多年的老程序员、培训师,精通多种IT技术,具有软件设计师职称。分享了多部AI技术教程,受到了读者的广泛赞誉。现任职于阳狮集团,担任算法工程师职位。教学风格追求化繁为简,务实而不空谈,课程设计思路清晰,课程演绎说理透彻,对AI领域技术有自己独到的见解。内容简介本书综合性讲解HuggingFace社区提供的工具集datasets和transformers,书中包括最基础的工具集的用例演示,具体的项目实战,以及预训练模型的底层设计思路和实现原理的介绍。通过本书的学习,读者可以快速掌握HuggingFace工具集的使用方法,掌握自然语言处理项目的一般研发流程,并能研发自己的自然语言处理项目。本书分为3篇共14章:工具集基础用例演示篇(第1~6章),详细讲解HuggingFace工具集的基本使用方法;中文项目实战篇(第7~12章),通过几个实战项目演示使用HuggingFace工具集研发自然语言处理项目的一般流程;预训练模型底层原理篇(第13、14章),详细阐述了预训练模型的设计思路和计算原理。本书将使用最简单浅显的语言,带领读者快速了解HuggingFace工具集的使用方法。通过本书实战项目的学习,读者可以掌握一般的自然语言处理项目的研发流程。通过本书预训练模型底层原理的学习,读者能够知其然也知其所以然,做到融会贯通。本书适合有PyTorch编程基础的读者阅读,也适合作为对自然语言处理感兴趣的读者的参考图书。前言PREFACE自然语言处理一直作为人工智能领域内的重要难题,历史上无数的科学家付出了巨大的心血对其进行研究。著名的图灵测试本质上也是一个自然语言处理任务。在深度学习成为主流后,自然语言处理确立了主要的研究方向,尤其是在谷歌提出了Transformer和BERT模型以后,基于预训练模型的方法,已成为自然语言处理研究的主要方向。随着自然语言处理研究的大跨步前进,问题也随之而来,首要的就是数据集格式缺乏统一规范,往往更换一个数据源,就要做复杂的数据适配工作,从工程角度来讲,这增加了项目的实施风险,作为工程人员有时会想,要是能有一个数据中心,它能把数据都管理起来,提供统一的数据接口就好了。与数据集相应,预训练模型也缺乏统一的规范,它们往往由不同的实验室提供,每个实验室提供的下载方法都不同,下载之后的使用方法也各有区别,如果能把这些模型的下载方式和使用方式统一,就能极大地方便研究,也能降低项目实施的风险。基于以上诉求,HuggingFace社区提供了两套工具集datasets和transformers,分别用于数据集管理和模型管理。基于HuggingFace工具集研发能极大地简化代码,把研发人员从细节的海洋中拯救出来,把更多的精力集中在业务本身上。此外,由于数据集和模型都统一了接口,所以在更换时也非常方便,避免了项目和具体的数据集、模型的强耦合,从而降低了项目实施的风险。综上所述,HuggingFace值得所有自然语言处理研发人员学习。本书将使用最简单浅显的语言,快速地讲解HuggingFace工具集的使用方法,并通过几个实例来演示使用HuggingFace工具集研发自然语言处理项目的过程。通过本书的学习,读者能够快速地掌握HuggingFace工具集的使用方法,并且能够使用HuggingFace研发自己的自然语言处理项目。本书主要内容第1章介绍HuggingFace提出的标准研发流程和提供的工具集。第2章介绍编码工具,包括编码工具的工作过程的示意,以及编码工具的用例。第3章介绍数据集工具,包括数据集仓库和数据集的基本操作。第4章介绍评价指标,包括评价指标的加载和使用方法。第5章介绍管道工具,并演示使用管道工具完成一些常见的自然语言处理任务。第6章介绍训练工具,并演示使用训练工具完成一个情感分类任务。第7章演示第1个实战任务,完成一个中文情感分类任务。第8章演示第2个实战任务,完成一个中文填空任务。第9章演示第3个实战任务,完成一个中文句子关系推断任务。第10章演示第4个实战任务,完成一个中文命名实体识别任务。第11章演示使用TensorFlow框架完成中文命名实体识别任务。第12章演示使用自动模型完成一个情感分类任务,并阅读源代码深入了解自动模型的工作原理。第13章演示手动实现Transformer模型,并完...
发表评论取消回复