PubMedQA PubMedQA 是用于生物医学研究问答的数据集平台,拥有丰富的问答实例,提供模型排行榜,助力生物医学领域自然语言处理研究与模型评估。 520 AI模型测评# PubMedQA# 数据集# 模型评估
H2O EvalGPT H2O Eval Studio 是一款用于 GenAI 模型评估的平台,具备集成式执行仪表盘、模型与排行榜对比、可配置评估器等功能,能有效提升模型可靠性与准确性。 460 AI模型测评# Eval# GenAI# H2O
FlagEval 探索 FlagEval,专业大模型评测平台。提供多维度、高精度的大模型评估,助您快速甄别模型优劣,把握 AI 发展趋势。 560 AI模型测评# ai# FlagEval# 大模型评测