LLM Eval
LLM Eval
  • 名称:LLM Eval
  • 类型:AI大模型
  • 访问:访问网站
网站简介

LLM是一个致力于大模型评测的专业平台,自2022年起,复旦大学NLP实验室发起了LLMEval项目,旨在系统研究和优化大模型的评估方法。该平台的主要功能和特点包括:

  • 全面评测:LLMEval系列项目已完成前三期,涵盖了大模型在生成能力、专业领域能力及知识能力等方面的评测。
  • LLMEval-1专注于生成能力,涉及17个大类和453个问题,评测指标包括正确性、流畅性、信息量、逻辑性和无害性。
  • LLMEval-2进一步聚焦于专业领域,特别是本科生和研究生的学术需求,设计了更专业化的评测题目。
  • LLMEval-3则涵盖了13个学科门类,提供约20万道标准生成式问答题目,后续计划扩充至100万道。
  • 数据收集与分析:自项目启动以来,LLMEval已收集近百万条评测数据,为大模型的评估与优化提供了宝贵的资源和实证分析。
  • 评测结果与排行榜:平台提供了清晰的模型评测结果和排行榜,用户可以通过对比不同模型在各学科的表现,了解其相对得分和绝对得分。
  • 自动化评测:LLMEval-3采用了自动化评测方式,使用GPT-4 Turbo对模型生成的答案进行打分,评分范围为0-3分,确保评测的客观性和准确性。
  • 防止作弊机制:为了防止评测中的不公平现象,LLMEval-3设计了随机抽样机制,确保每次评测题目不重复,避免“刷榜”现象。

LLM适用于研究人员、开发者和学术界人士,尤其是那些关注大模型技术发展的用户。通过使用LLM,用户可以深入了解大模型的能力和表现,获取评测数据和分析结果,推动相关研究和应用的发展。