AIBOT-HUB

帅气的我简直无法用语言描述!
PubMedQA

PubMedQA

PubMedQA 是用于生物医学研究问答的数据集平台,拥有丰富的问答实例,提供模型排行榜,助力生物医学领域自然语言处理研究与模型评估。
100
H2O EvalGPT

H2O EvalGPT

H2O Eval Studio 是一款用于 GenAI 模型评估的平台,具备集成式执行仪表盘、模型与排行榜对比、可配置评估器等功能,能有效提升模型可靠性与准确性。
100
LLMEval3

LLMEval3

Chatbot Arena(原 LMSYS)是一个免费的 AI 聊天平台,用户可在此对比和测试各类最佳 AI 聊天机器人,通过与不同机器人互动,直观感受其性能差异。
130
LMArena

LMArena

Chatbot Arena(原 LMSYS)是一个免费的 AI 聊天平台,用户可在此对比和测试各类最佳 AI 聊天机器人,通过与不同机器人互动,直观感受其性能差异。
220
HELM

HELM

HELM 是斯坦福大学开发的用于评估基础模型的全面框架,涵盖 142 个模型和 87 个场景,涉及问答、信息检索、总结、情感分析等多方面,提供全面准确的模型评估。
100
MMBench

MMBench

MMBench 是专注评估视觉语言模型能力的平台,有约 3000 道选择题,覆盖 20 多个细粒度评估维度。采用稳健评估方法和可靠输出提取方法,确保评估准确。由多机构团队贡献。
120
CMMLU

CMMLU

CMMLU 是综合性中文评估基准,涵盖 67 个主题,评估语言模型中文知识与推理能力。含排行榜展示模型表现,提供数据集,适用于科研、开发等场景。
110
OpenCompass

OpenCompass

OpenCompass 司南的大语言模型评测榜单,为你呈现业内大语言模型的权威排名。展示多维度能力评测结果,含整体、语言、知识、推理等维度,助你精准了解模型实力。
140
Glean – 企业级工作 AI 平台,让工作更高效

Glean – 企业级工作 AI 平台,让工作更高效

Glean 是一款为企业提供 AI 助力的工作平台,能让员工借助 AI 助手和智能代理将公司知识运用到工作中,提升工作效率,全球领先企业都在使用。
170
XAnswer – 提供直接答案的免费 AI 搜索引擎

XAnswer – 提供直接答案的免费 AI 搜索引擎

XAnswer 是免费的 AI 搜索引擎,能提供直接答案。可搜索体育赛事资讯,如橄榄球比赛赛况、NBA 比赛观看信息等。
120
Cusp AI – 前沿 AI 材料研发公司

Cusp AI – 前沿 AI 材料研发公司

Cusp AI 致力于解决推动人类进步所需的突破性材料难题,利用 AI 在数月内实现价值万亿美元的材料突破,拥有顶尖的领导团队和顾问阵容。
170
问问小宇宙 – 探索播客话题的新平台

问问小宇宙 – 探索播客话题的新平台

问问小宇宙是一个可助力用户探索播客话题的平台,能让用户搜索京都旅行、历史类书籍推荐、理财话题、巴黎奥运会趣闻等各类感兴趣的内容。
120