竞博job·发布一天Code Llama代码能力突飞猛进微调版

产品中心发布时间：2024-06-01 15:38:56 来源：竞博官网登录作者：竞博job在线登录

2024-06-01

　　昨天的我：在代码生成方面开源 LLM 将在几个月内击败 GPT-4 。现在的我：实际上是今天。

　　一天刚过，就有研究者向 GPT-4 发起了挑战。他们来自 Phind（一个组织，旨在构造一款为开发人员而生的AI 搜索引擎），该研究用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。

　　Phind 联合创始人 Michael Royzen 表示：「这只是一个早期实验，旨在重现（并超越）Meta 论文中的「Unnatural Code Llama」结果。将来，我们将拥有不同 CodeLlama 模型的专家组合，我认为这些模型在现实世界的工作流程中将具有竞争力。」

　　谈到微调，自然少不了数据集，该研究在包含约 8 万个高质量编程问题和解决方案的专有数据集上对 Code Llama-34B 和 Code Llama-34B-Python 进行了微调。

　　该数据集没有采用代码补全示例，而是采用指令 - 答案对，这与 HumanEval 数据结构不同。之后该研究对 Phind 模型进行了两个 epoch 的训练，总共有约 16 万个示例。研究者表示，训练中没有使用 LoRA 技术，而是采用了本地微调。

　　此外，该研究还将 OpenAI 的去污染（decontamination）方法应用于数据集，使模型结果更加有效。

　　众所周知，即便是非常强大的 GPT-4，也会面临数据污染的困境，通俗一点的讲就是训练好的模型可能已经接受评估数据的训练。

　　这个问题对 LLM 非常棘手，举例来说，在评估一个模型性能的过程中，为了进行科学可信的评估，研究者必须检查用于评估的问题是否在模型的训练数据中。如果是的话，模型就可以记住这些问题，在评估模型时，显然会在这些特定问题上表现更好。

　　为了解决这个问题，OpenAI 在公开的 GPT-4 技术文档《 GPT-4 Technical Report 》中披露了有关 GPT-4 是如何评估数据污染的。他们公开了量化和评估这种数据污染的策略。

　　具体而言，OpenAI 使用子串匹配来测量评估数据集和预训练数据之间的交叉污染。评估和训练数据都是通过删除所有空格和符号，只保留字符（包括数字）来处理的。

　　对于每个评估示例，OpenAI 随机选择三个 50 个字符的子字符串（如果少于 50 个字符，则使用整个示例）。如果三个采样的评估子字符串中的任何一个是处理后的训练样例的子字符串，则确定匹配。

　　这将产生一个受污染示例的列表，OpenAI 丢弃这些并重新运行以获得未受污染的分数。但这种过滤方法有一些局限性，子串匹配可能导致假阴性（如果评估和训练数据之间有微小差异）以及假阳性。因而，OpenAI 只使用评估示例中的部分信息，只利用问题、上下文或等效数据，而忽略答案、回应或等效数据。在某些情况下，多项选择选项也被排除在外。这些排除可能导致假阳性增加。

　　不过，Phind 在对标 GPT-4 时使用的 HumanEval 分数存在一些争议。有人说，GPT-4 的最新测评分数已经达到了 85%。但 Phind 回复说，得出这个分数的相关研究并没有进行污染方面的研究，无法确定 GPT-4 在接受新一轮测试时是否看到过 HumanEval 的测试数据。再考虑到最近一些有关「」的研究，所以用原始技术报告中的数据更为稳妥。

　　不过，考虑到大模型评测的复杂性，这些测评结果能否反映模型的真实能力依然是一个有争议的问题。大家可以下载模型后自行体验。

　　原标题：《发布一天，Code Llama代码能力突飞猛进，微调版HumanEval得分超GPT-4》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

竞博job 上一篇：华为云CDN助力企业网速腾飞! 下一篇：2024全国企业家活动日暨中国企业家年会丨向“新”