AI产品经理需要了解的数据标注工作入门.pdf

AI产品经理需要了解的数据标注工作入门.pdf_第1页
AI产品经理需要了解的数据标注工作入门.pdf_第2页
AI产品经理需要了解的数据标注工作入门.pdf_第3页
AI产品经理需要了解的数据标注工作入门本文作者@Jasmine,文章主要分享我们该如何在对AI行业一无所知的情况下,快速了解到它的流程运作,并找准机会转行。Hi,我是@Jasmine,一位AI产品经理。在正式内容之前,我想跟大家简单分享一下我的经历:我大学本科不是IT相关,甚至在我工作之前,我没有做过任何与互联网相关的实习工作。而现在我能负责公司的重点项目,证明了进入AI行业并不是你们想象中的那么困难。直至今天,我仍在这条道路上不断学习,也希望有更多的朋友给予我指点。现在我就来说说,如何在对AI行业一无所知的情况下,快速了解到它的流程运作,并找准机会转行。一、简单了解AI应用范围(上图,来自智能玩咖)AI的应用领域非常非常广,上图只是大家相对熟悉的几个,而且每一个领域用到的算法都不一样。有很多想转型的产品,第一个考虑的点就是:不懂技术就做不了AI,我是不是学完算法才能入行?其实不是。大家可能知道:不仅算法重要,很多时候数据可能更重要;有保质保量的数据,才可能有好的训练效果。数据可分为两种类型:“被标记过”的数据和“未被标记过”的数据。什么是标记呢?意同“贴标签”,当你看到一个西瓜,你知道它是属于水果。那么你就可以为它贴上一个水果的标签。算法同事用“有标签的数据”去训练模型,这里就有了“监督学习”。重点就是这里:只要是跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自然语言理解等等,他们都有一个必走的流程——不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。二、数据处理流程拆解1、数据标注数据的质量直接会影响到模型的质量,因此数据标注在整个流程中绝对是非要重要的一点。1)一般来说,数据标注部分可以有三个角色标注员:标注员负责标记数据。审核员:审核员负责审核被标记数据的质量。管理员:管理人员、发放任务、统计工资。只有在数据被审核员审核通过后,这批数据才能够被算法同事利用。2)数据标记流程任务分配:假设标注员每次标记的数据为一次任务,则每次任务可由管理员分批发放记录,也可将整个流程做成“抢单式”的,由后台直接分发。标记程序设计:需要考虑到如何提升效率,比如快捷键的设置、边标记及边存等等功能都有利于提高标记效率。3)进度跟踪:程序对标注员、审核员的工作分别进行跟踪,可利用“规定截止日期”的方式淘汰怠惰的人。4)质量跟踪:通过计算标注人员的标注正确率和被审核通过率,对人员标注质量进行跟踪,可利用“末位淘汰”制提高标注人员质量。2、模型训练这部分基本交由算法同事跟进,但产品可依据需求,向算法同事提出需要注意的方面;举个栗子——背景:一个识别车辆的产品对大众车某系列的识别效果非常不理想,经过跟踪发现,是因为该车系和另外一个品牌的车型十分相似。那么,为了达到某个目标(比如,将精确率提高5%),可以采用的方式包括:补充数据:针对大众车系的数据做补充。值得注意的是,不仅是补充正例(“XXX”应该被识别为该大众车系),还可以提供负例(“XXX”不应该被识别为该大众车系),这样可以提高差异度的识别。优化数据:修改大批以往的错误标注。产品将具体的需求给到算法工程师,能避免无目的性、无针对性、无紧急程度的工作。3、模型测试测试同事(一般来说算法同事也会直接负责模型测试)将未被训练过的数据在新的模型下做测试。如果没有后台设计,测试结果只能由人工抽样计算,抽样计算繁琐且效率较低。因此可以考虑由后台计算。一般来说模型测试至少需要关注两个指标:精确率:识别为正确的样本数/识别出来的样本数召回率:识别为正确的样本数/所有样本中正确的数举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则精确率=18/(18+2)=0.9召回率=18/30=0.6再补充一个图来解释:(来自mousever)而且,模型的效果,需要在这两个指标之间达到一个平衡。测试同事需要关注特定领域内每个类别的指标,比如针对识别人脸的表情,里面有喜怒哀乐等分类,每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

发表评论取消回复

参与评论可获取积分奖励  
微风舍
实名认证
内容提供者

微风舍,风起于青萍之末,浪成于微澜之间,舍是漏舍,唯吾德馨。

确认删除?
回到顶部