Warning: Array to string conversion in /www/wwwroot/aibot-hub.com/wp-content/themes/onenav/inc/wp-optimization.php on line 108
AI模型测评 - AIBOT-HUB ｜AI应用和工具目录AI模型测评官网，AI模型测评导航为您提供服务，精心挑选，安全无毒，找AI模型测评网址就来AIBOT-HUB ｜AI应用和工具目录，这里收集全网最全的网站资源。 - AI模型测评 - AIBOT-HUB ｜AI应用和工具目录

AI模型测评

共 15 篇网址

AI模型测评

豆包大模型

探索豆包大模型，具备 164000 亿日均 tokens 使用量，拥有超全模态支持。涵盖大语言模型、视频生成模型、视觉语言模型等多种类型，适配丰富应用场景，价格低且更易落地。

3100

AI模型测评 AI训练模型 # ai # 多模态模型 # 应用场景

PubMedQA

PubMedQA 是用于生物医学研究问答的数据集平台，拥有丰富的问答实例，提供模型排行榜，助力生物医学领域自然语言处理研究与模型评估。

1610

AI模型测评 # PubMedQA # 数据集 # 模型评估

H2O EvalGPT

H2O Eval Studio 是一款用于 GenAI 模型评估的平台，具备集成式执行仪表盘、模型与排行榜对比、可配置评估器等功能，能有效提升模型可靠性与准确性。

1250

AI模型测评 # Eval # GenAI # H2O

LLMEval3

Chatbot Arena（原 LMSYS）是一个免费的 AI 聊天平台，用户可在此对比和测试各类最佳 AI 聊天机器人，通过与不同机器人互动，直观感受其性能差异。

1690

AI模型测评 # ai # Arena # Chatbot

LMArena

Chatbot Arena（原 LMSYS）是一个免费的 AI 聊天平台，用户可在此对比和测试各类最佳 AI 聊天机器人，通过与不同机器人互动，直观感受其性能差异。

2470

AI模型测评 # ai # Arena # Chatbot

HELM

HELM 是斯坦福大学开发的用于评估基础模型的全面框架，涵盖 142 个模型和 87 个场景，涉及问答、信息检索、总结、情感分析等多方面，提供全面准确的模型评估。

1560

AI模型测评 # HELM # 基础模型评估 # 多场景评估

MMBench

MMBench 是专注评估视觉语言模型能力的平台，有约 3000 道选择题，覆盖 20 多个细粒度评估维度。采用稳健评估方法和可靠输出提取方法，确保评估准确。由多机构团队贡献。

1700

AI模型测评 # MMBench # 多模态模型评估 # 视觉语言模型

CMMLU

CMMLU 是综合性中文评估基准，涵盖 67 个主题，评估语言模型中文知识与推理能力。含排行榜展示模型表现，提供数据集，适用于科研、开发等场景。

2020

AI模型测评 # CMMLU # 中文多任务语言理解评估 # 排行榜

OpenCompass

OpenCompass 司南的大语言模型评测榜单，为你呈现业内大语言模型的权威排名。展示多维度能力评测结果，含整体、语言、知识、推理等维度，助你精准了解模型实力。

1970

AI模型测评 # OpenCompass # 司南 # 大语言模型评测榜单

AGI-Eval

AGI - Eval 评测社区提供大语言模型和多模态榜单，数据透明权威。有人机评测、公开学术评测集等，还有用户数据贡献机制，与多机构合作，推动 AI 评测发展。

1710

AI模型测评 # ae # AGI # Eval

SuperCLUE

SuperCLUE 作为中文通用大模型综合性测评基准，多维度评估模型效果，月度更新榜单。涵盖 OPEN、OPT、琅琊榜三大基准，助力了解中文大模型实力。

1880

AI模型测评 # SuperCLUE # 中文通用大模型测评 # 大模型效果评估

FlagEval

探索 FlagEval，专业大模型评测平台。提供多维度、高精度的大模型评估，助您快速甄别模型优劣，把握 AI 发展趋势。

1740

AI模型测评 # ai # FlagEval # 大模型评测

C-Eval

C-Eval 是一个全面的中文基础模型评估套件，包含 13948 个多项选择题，覆盖 52 个学科和四个难度级别，助力大语言模型评估。

1630

AI模型测评 # C-Eval # 中文评估套件 # 多学科评估

Papers with Code

探索 Papers with Code，这是一个将学术论文与代码实现紧密结合的平台。为 AI、机器学习等领域的科研人员和开发者提供丰富资源，助力学术研究与项目开发。

3870

AI模型测评 # ai # code # Papers

Hugging Face Open LLM Leaderbo

Hugging Face Open LLM Leaderboard：全球开源大模型的 “性能晴雨表",全球首个动态开源大模型评测平台，覆盖 200 + 模型、16 + 基准，支持多维度对比与结果复现，助力开发者、企业快速选择适配模型。

1630

AI指令提示 AI模型测评 # face # Hugging # Leaderboard