CMMLU

2天前发布 4 0 0

CMMLU 是综合性中文评估基准,涵盖 67 个主题,评估语言模型中文知识与推理能力。含排行榜展示模型表现,提供数据集,适用于科研、开发等场景。

收录时间:
2025-08-06

产品介绍

 

CMMLU中文多任务语言理解评估)是一个综合性的中文评估基准,专注于评估语言模型在中文语境下的知识和推理能力。它覆盖了从基础学科到高级专业水平的 67 个主题,包含需计算推理的自然科学、需知识储备的人文科学和社会科学,以及涉及生活常识的中国驾驶规则等内容。许多任务具有中国特定答案,是完全中国化的中文测试基准。

功能与优势亮点

 

  1. 全面的主题覆盖:涵盖 67 个主题,从基础学科到高级专业水平,能全面评估语言模型在不同领域的知识掌握和推理能力。
  2. 中国特色任务:包含大量具有中国特定答案的任务,更贴合中文语境和中国文化背景,能准确评估模型在中国场景下的适用性。
  3. 排行榜展示:提供模型在 five – shot 和 zero – shot 测试下的表现排行榜,清晰展示各模型在 STEM、人文学科、社会科学、其他、中国特定主题等维度的得分及平均分,方便用户对比不同模型的性能。
  4. 数据资源丰富:在 data 目录中提供开发和测试数据集,用户可通过 Hugging Face 获取,且数据集以逗号分隔的.csv 文件形式存在,方便使用。
  5. 预处理代码支持:在 src/mp_utils 目录中提供预处理代码,包括生成直接回答提示和思路链(COT)提示的方法,帮助用户更高效地进行评估。

应用场景

 

  1. 科研机构:科研人员可利用 CMMLU 评估新开发的语言模型,对比不同模型的性能,为研究提供参考,推动中文语言模型技术的发展。
  2. 企业开发者:企业在选择语言模型应用于业务时,可参考 CMMLU 排行榜,选择性能更优的模型,提高业务效率和质量。
  3. 教育领域:可用于教育评估,检测学生对不同学科知识的掌握和语言理解推理能力,辅助教学改进。

用户评价

 

目前暂未获取到大量用户评价信息。但从 CMMLU 的功能和定位来看,其有望获得科研人员、开发者和教育工作者的认可。全面的主题覆盖、中国特色任务和清晰的排行榜展示,能满足用户对中文语言模型评估的需求。不过,随着语言模型技术的不断发展,可能需要不断更新主题和评估方法,以保持其评估的准确性和有效性。

竞品对比

 

与其他语言模型评估基准相比,CMMLU 的优势在于其专注于中文语境,具有大量中国特定主题的任务,能更好地评估模型在中国场景下的表现。一些竞品可能缺乏对中文文化和中国特定知识的覆盖。然而,部分竞品可能在评估方法的创新性或评估维度的多样性上有独特优势。CMMLU 可以进一步优化评估方法,增加更多的评估维度,提升自身竞争力。

操作体验

 

从项目文档来看,用户可以方便地获取数据集和预处理代码,通过参考评估代码和运行脚本,对模型进行评估。但对于一些非专业开发者来说,可能需要一定的技术基础才能顺利使用。后续可以提供更详细的操作指南和示例,降低使用门槛。

常见问题

 

  1. 如何提交模型测试结果:对于开源或开放 API 的模型,可直接提交拉取请求(可选择同时在 src 目录下更新测试代码);如模型未开放公测,需发送测试代码到 haonan.li@librai.tech ,同时将测试结果更新在榜单并提交拉取请求,平台会验证结果真实性后更新榜单。
  2. 数据集的使用许可是什么:CMMLU 数据集采用 Creative Commons Attribution – NonCommercial – ShareAlike 4.0 International License。
  3. 是否有古汉语评估需求的解决方案:如果有古汉语的评估需求,欢迎使用 ACLUE。

最新动态

 

项目最近更新于 2024 年 12 月 6 日,更新了 jiutian 模型分数和链接。后续可持续关注项目的 GitHub 页面,获取最新的排行榜更新、数据集补充、评估方法改进等信息。

数据统计

相关导航