中文大模型基准测评报告,20232023.11.28—ChatGPT发布一周年,中文大模型进展评估目录01国内大模型关键进展测评体系、方法说明•2023年大模型关键进展•2023年值得关注的中文大模型全景图•中文大模型基准SuperCLUE介绍•测评体系、层次、方法说明大模型测评结果•SuperCLUE模型象限•国内外大模型差距•国内大模型竞争格局•大模型对战胜率分布图•四大维度测评结果及示例优秀模型案例介绍•优秀模型案例介绍020304第1部分国内大模型关键进展5(关键进展)时间准备期成长期爆发期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。故事的起点:ChatGPT发布国内迅速形成大模型共识•百度发布文心一言1.02023大模型关键进展2022.122月6月8月10月2023.114月•OpenAI发布GPT4•复旦开源MOSS•元语开源ChatYuan•清华开源ChatGLM•360发布360智脑1.0•科大讯飞发布星火1.0•阿里云发布通义千问1.0•Meta开源Llama2•百川智能开源Baichuan-7B•OpenAI发布多模态GPT-4V•GPT-4Turbo发布•百度升级文心一言4.0•商汤科技发布商量1.0•阿里云开源Qwen-7B•华为发布盘古3.0•字节跳动公测大模型产品豆包•百川智能开源Baichuan2•vivo发布BlueLM•清华开源ChatGLM3•清华&智谱AI开源ChatGLM2•小米发布大模型MiLM•西湖心辰发布西湖大模型•零一万物开源Yi-34B•文心一言升级V3.5•科大讯飞升级星火3.0•元象科技开源XVERSE-13B•昆仑万维发布天工1.0•云从科技发布从容大模型•出门问问发布序列猴子•上海人工智能实验室开源InternLM-20B•OPPO发布AndesGPT•商汤科技升级商量2.0•商汤科技升级商量3.0•理想汽车发布MindGPT•深言科技开源LingoWhale-8B•腾讯发布混元助手•360升级智脑4.0SuperCLUE:AI大模型2023年关键进展•百川智能发布Baichuan2-192K•元象科技开源XVERSE-65B2023年值得关注的中文大模型全景图通用大模型字节云雀大模型AndesGPT玉言闭源开源行业大模型岐黄问道医疗MindGPT银河大模型蚂蚁金融大模型轩辕大模型AInno-15BCOSMO-GPTSMoreLrMo妙笔大模型文化/零售/交通百川BaichuanBlueLM云天书孟子部分领域汽车教育金融工业....................................Yi-34B序列猴子第2部分测评体系、方法说明0102030405不同于传统测评针对于学术能力的测评,SuperCLUE考察通用大模型在语言理解与生成、专业技能与知识、安全性和工具使用的四大能力、十大维度的上百个任务上的效果。多维度多层次的反应大模型通用能力。多维度中文语言理解测评基准CLUE(TheChineseLanguageUnderstandingEvaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。传统语言模型测评往往局限于学术范围的单轮选择题,SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。主观题+客观题多轮十大维度高保密性传统测评SuperCLUE不同于传统测评的单轮形式的测评,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果。对大模型的上下文、记忆、对话能力全方位评测。多轮测评不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过对话的形式真实模拟大模型的应用场景,真实有效的考察模型生成能力。多视角为实时跟踪国内大模型的迭代情况,及时反应国内外大模型发展现状。SuperCLUE按照月度测评形式及实时热点模型测评的模式快速跟进大模型发展情况。月度跟踪为应对大模型广泛学习互联网知识的情况,减少训练集混入评测集的风险,SuperCLUE采用高保密性的测评方式,且月度测评采用完全原创且全新的评测集进行测评,保...
发表评论取消回复