HELM HELM 是斯坦福大学开发的用于评估基础模型的全面框架,涵盖 142 个模型和 87 个场景,涉及问答、信息检索、总结、情感分析等多方面,提供全面准确的模型评估。 40 AI模型测评# HELM# 基础模型评估# 多场景评估