竞博job·重磅!清华大学基础模型研究中心发布《SuperBe


案例中心-竞博job 发布时间:2024-04-30 22:25:15 来源:竞博官网登录 作者:竞博job在线登录

2024-04-30

  尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。好的评测方法应当具备开放性、动态性、科学性和权威性。

  为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。SuperBench 介绍请查看以往推送:2024年,如何避免「国内百模,家家第一」乱象?

  近期,我们发布了 2024 年 3 月的《SuperBench大模型综合能力评测报告》。在此评测中,我们选定了 14 个海内外具有代表性的模型进行测试。对于闭源模型,我们选取 API 和网页两种调用模式中得分较高的一种进行评测。

  ● 整体来说,GPT-4 系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4 和文心一言 4.0 表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。● 国外大模型中,GPT-4 系列模型表现稳定,Claude-3 也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。● 国内大模型中,GLM-4 和文心一言 4.0 在本次评测中表现最好,为国内头部模型;通义千问 2.1、Abab6、moonshot 网页版以及 qwen1.5-72b-chat 紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。

  自大语言模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展,对其性能重点的研究也在不断迁移。根据我们的研究,大模型能力评测大概经历如下 5 个阶段:2018 年-2021 年:语义评测阶段早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、 GPT、T5 等。2021 年-2023 年:代码评测阶段随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX 等。2022 年-2023 年:对齐评测阶段随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM 等。2023 年-2024 年:智能体评测阶段基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen 等。2023 年-future:安全评测阶段随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。

  因此,为了全面地评估大模型的各项能力,SuperBench评测体系包含了语义、代码、对齐、智能体和安全等五个评测大类,28 个子类。

  ,旨在为语言模型提供更严格的评测标准,采用零样本 CoT 评测方式,并根据特定要求对模型输出进行评分。我们首先使用了超过 20 种语言模型进行初步测试,包括了 GPT-4、Claude、Vicuna、WizardLM 和 ChatGLM 等。我们基于所有模型的综合表现,决定了每个分类中挑选出难度最大的 10%~20% 数据,将它们组合为“高难度传统数据集”。

  :收集了 72 个中英双语传统数据集,提取其中高难度的题目组成 4 个维度的评测数据集,采取零样本 CoT 评测方式,各维度得分计算方式为

  在语义理解能力评测中,各模型形成了三个梯队,70 分档为第一梯队,包括Claude-3、GLM-4、文心一言 4.0以及GPT-4 系列模型;其中Claude-3得分为 76.7,位居第一;国内模型GLM-4和文心一言4.0 则超过 GPT-4 系列模型位居第二和第三位,但是和 Claude-3 有 3 分差距。

  ●知识-常识:Claude-3以 79.8 分领跑,国内模型GLM-4表现亮眼,超过 GPT-4 网页版位居第二;文心一言 4.0 表现不佳,距离榜首 Claude-3 有 12.7 分差距。●知识-科学:Claude-3依然领先,并且是唯一一个 80 分以上模型;文心一言 4.0、GPT-4 系列模型以及 GLM-4 模型均在 75 分以上,为第一梯队模型。●数学:Claude-3和文心一言 4.0并列第一,得 65.5 分,GLM-4领先 GPT-4 系列模型位列第三,其他模型得分在 55 分附近较为集中,当前大模型在数学能力上仍有较大提升空间。●阅读理解:各分数段分布相对较为平均,文心一言 4.0超过 GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。

  PART/2代码评测NaturalCodeBench(NCB)是一个评估模型代码能力的基准测试,传统的代码能力评测数据集主要考察模型在数据结构与算法方面的解题能力,而 NCB 数据集侧重考察模型在真实编程应用场景中写出正确可用代码的能力。

  所有问题都从用户在线上服务中的提问筛选得来,问题的风格和格式更加多样,涵盖数据库、前端开发、算法、数据科学、操作系统、人工智能、软件工程等七个领域的问题,可以简单分为算法类和功能需求类两类。题目包含 java 和 python 两类编程语言,以及中文、英文两种问题语言。每个问题都对应 10 个人类撰写矫正的测试样例,9 个用于测试生成代码的功能正确性,剩下 1 个用于代码对齐。

  评测方法&流程●评测方式:运行模型生成的函数,将输出结果与准备好的测例结果进行比对进行打分。将输出结果与准备好的测例结果进行比对进行打分,最终计算生成代码的一次通过率 pass@1。●评测流程:给定问题、单元测试代码、以及测例,模型首先根据问题生成目标函数;运行生成的目标函数,以测例中的输入作为参数得到函数运行输出,与测例中的标准输出进行比对,输出匹配得分,输出不匹配或函数运行错误均不得分。

  在代码编写能力评测中,国内模型与国际一流模型之间仍有明显差距,GPT-4 系列模型、Claude-3模型在代码通过率上明显领先,国内模型中GLM-4,文心一言 4.0与讯飞星火 3.5表现突出,综合得分达到 40 分以上;然而,即使是表现最好的模型在代码的一次通过率上仍只有 50% 左右,代码生成任务对目前的大模型来说仍是一大挑战。

  PART/3对齐评测AlignBench 旨在全面评测大模型在中文领域与人类意图的对齐度,通过模型打分评测回答质量,衡量模型的指令遵循和有用性。它包括 8 个维度,如基本任务和专业能力,使用真实高难度问题,并有高质量参考答案。优秀表现要求模型具有全面能力、指令理解和生成有帮助的答案。

  “中文推理”维度重点考察了大模型在中文为基础的数学计算、逻辑推理方面的表现。这一部分主要由从真实用户提问中获取并撰写标准答案,涉及多个细粒度领域的评估:●数学计算上,囊括了初等数学、高等数学和日常计算等方面的计算和证明。●逻辑推理上,则包括了常见的演绎推理、常识推理、数理逻辑、脑筋急转弯等问题,充分地考察了模型在需要多步推理和常见推理方法的场景下的表现。

  “中文语言”部分着重考察大模型在中文文字语言任务上的通用表现,具体包括六个不同的方向:基本任务、中文理解、综合问答、文本写作、角色扮演、专业能力。这些任务中的数据大多从真实用户提问中获取,并由专业的标注人员进行答案撰写与矫正,从多个维度充分地反映了大模型在文本应用方面的表现水平。具体来说:●基本任务考察了在常规 NLP 任务场景下,模型泛化到用户指令的能力;●中文理解上,着重强调了模型对于中华民族传统文化和汉字结构渊源的理解;●综合问答则关注模型回答一般性开放问题时的表现;●文本写作则揭示了模型在文字工作者工作中的表现水平;●角色扮演是一类新兴的任务,考察模型在用户指令下服从用户人设要求进行对话的能力;●专业能力则研究了大模型在专业知识领域的掌握程度和可靠性。

  评测方法&流程●评测方式:通过强模型(如 GPT-4)打分评测回答质量,衡量模型的指令遵循能力和有用性。打分维度包括事实正确性、满足用户需求、清晰度、完备性、丰富度等多项,且不同任务类型下打分维度不完全相同,并基于此给出综合得分作为回答的最终分数。●评测流程:模型根据问题生成答案、GPT-4 根据生成的答案和测试集提供的参考答案进行详细的分析、评测和打分。

  在人类对齐能力评测中,GPT-4 网页版占据榜首,文心一言4.0和GPT-4 Turbo同分(7.74)紧随其后,国内模型中GLM-4同样表现优异,超越 Claude-3,位列第四,通义千问 2.1略低于 Claude-3,排名第六,同为第一梯队大模型。

  ●中文推理:GPT-4 系列模型表现最好,略高于国内模型文心一言 4.0,并且和其他模型拉开明显差距;●中文语言:国内模型包揽了前四名,分别是KimiChat 网页版(8.05 分)、通义千问 2.1(7.99 分)、GLM-4(7.98 分)、文心一言 4.0(7.91 分),超过 GPT-4 系列模型和 Claude-3 等国际一流模型。

  中文推理:●数学计算:GPT-4 系列模型包揽前两名,国内模型文心一言 4.0、通义千问 2.1分数超过 Claude-3,但与 GPT-4 系列模型仍有一定差距。●逻辑推理:7 分以上为第一梯队,由国内模型文心一言 4.0领跑,同在第一梯队的还有GPT-4 系列模型、Claude-3、GLM4和Abab6。

  中文语言:●基本任务:GLM-4拿下榜首,通义千问 2.1、Claude-3和GPT-4 网页版占据二到四位,国内其他大模型中文心一言4.0和KimiChat 网页版也表现较好,超过了GPT-4 Turbo。●中文理解:国内模型整体表现较好,包揽了前四名,文心一言 4.0领先优势明显,领先第二名GLM-40.41分;国外模型中,Claude-3表现尚可,排在第五位,但 GPT-4 系列模型表现较差,排在中下游,并且和第一名分差超过 1 分。●综合问答:各大模型均表现较好,超过 8 分的模型达到了 6 家,GPT-4 网页版和KimiChat 网页版拿下最高分,GLM-4和Claude-3分数相同,与榜首分数接近,并列第三。●文本写作:KimiChat 网页版表现最好,同时也是唯一一个 8 分以上的模型,GPT-4 Turbo和通义千问 2.1分列二、三位。●角色扮演:国内模型Abab6、通义千问 2.1和KimiChat 网页版包揽前三名,且均在 8 分以上,超过GPT-4 系列模型和Claude-3等国际一流模型。●专业能力:GPT-4 Turbo占据了首位,KimiChat 网页版超过GPT-4 网页版拿下第二名,国内其他模型中,GLM-4和通义千问 2.1同样表现不。


竞博job
上一篇:知名啤酒被检出呕吐毒素最新回应:多家电商平台已下架 下一篇:覆盖22个科室量表数量600 常笑医学网超实用量表