EvalScope
EvalScope 简介
EvalScope 是一个开源的 AI 模型评测框架,用于系统化、可重复地评估大语言模型在各种任务上的性能。
1. 功能
- 任务管理:支持选择题、多选题、编程题、数学题等多种任务类型。
- 模型支持:支持本地模型或远程 API,兼容多种推理引擎(vLLM、Transformers、Deepspeed-MII 等)。
- 数据集管理:内置多种评测数据集,也可以扩展自定义数据集。
- 批量评测:支持并行批量测试,配置 batch size、生成参数等。
- 结果记录:自动保存预测结果,输出 JSON/CSV 格式,方便分析和对比。
2. 工作流程
- 准备模型:下载或训练好的模型,或通过 API 调用。
- 选择任务和数据集:指定评测任务及数据集,配置 few-shot/zero-shot 参数。
- 设置推理参数:选择推理引擎,设置 batch size、生成参数等。
- 运行评测:将输入发送到模型,收集输出。
- 分析结果:自动计算准确率、F1、召回率等指标,方便对比不同模型。
3. 核心优势
- 统一接口,不同模型和任务可直接对比。
- 可重复,便于实验管理。
- 支持大模型高性能推理。
- 易扩展,可加入自定义任务和数据集。