LLM Eval - 小璐导航资源站

LLM Eval

LLM Eval

名称：LLM Eval
类型：AI大模型
访问：访问网站

网站简介

LLM是一个致力于大模型评测的专业平台，自2022年起，复旦大学NLP实验室发起了LLMEval项目，旨在系统研究和优化大模型的评估方法。该平台的主要功能和特点包括：

全面评测：LLMEval系列项目已完成前三期，涵盖了大模型在生成能力、专业领域能力及知识能力等方面的评测。
LLMEval-1专注于生成能力，涉及17个大类和453个问题，评测指标包括正确性、流畅性、信息量、逻辑性和无害性。
LLMEval-2进一步聚焦于专业领域，特别是本科生和研究生的学术需求，设计了更专业化的评测题目。
LLMEval-3则涵盖了13个学科门类，提供约20万道标准生成式问答题目，后续计划扩充至100万道。

数据收集与分析：自项目启动以来，LLMEval已收集近百万条评测数据，为大模型的评估与优化提供了宝贵的资源和实证分析。

评测结果与排行榜：平台提供了清晰的模型评测结果和排行榜，用户可以通过对比不同模型在各学科的表现，了解其相对得分和绝对得分。

自动化评测：LLMEval-3采用了自动化评测方式，使用GPT-4 Turbo对模型生成的答案进行打分，评分范围为0-3分，确保评测的客观性和准确性。

防止作弊机制：为了防止评测中的不公平现象，LLMEval-3设计了随机抽样机制，确保每次评测题目不重复，避免“刷榜”现象。

LLM适用于研究人员、开发者和学术界人士，尤其是那些关注大模型技术发展的用户。通过使用LLM，用户可以深入了解大模型的能力和表现，获取评测数据和分析结果，推动相关研究和应用的发展。

如遇问题，请联系客服
官方QQ客服 616853535
微信客服

唯一官方客服
APP下载
返回顶部