AIBOT-HUB |AI应用和工具目录
  • AI应用集
  • 最新AI资讯
  • 最新AI应用
  • AI知识库
  • 提交AI工具
  • 关于我们
    • AI写作工具
    • AI图像工具
    • AI视频工具
    • AI办公工具
    • AI聊天助手
    • AI智能体
    • AI编程工具
    • AI设计工具
    • AI音频工具
    • AI搜索引擎
    • AI开发平台
    • AI学习网站
    • AI训练模型
    • AI内容检测
    • AI模型测评
    • AI指令提示

    AI模型测评

    共 15 篇网址
    AI模型测评
    AI写作工具AI图像工具AI视频工具AI办公工具AI智能体AI聊天助手AI编程工具AI设计工具AI音频工具AI搜索引擎AI开发平台AI学习网站AI训练模型AI模型测评AI内容检测AI指令提示
    排序
    发布更新浏览点赞
    豆包大模型

    豆包大模型

    探索豆包大模型,具备 164000 亿日均 tokens 使用量,拥有超全模态支持。涵盖大语言模型、视频生成模型、视觉语言模型等多种类型,适配丰富应用场景,价格低且更易落地。
    360
    AI模型测评AI训练模型# ai# 多模态模型# 应用场景
    PubMedQA

    PubMedQA

    PubMedQA 是用于生物医学研究问答的数据集平台,拥有丰富的问答实例,提供模型排行榜,助力生物医学领域自然语言处理研究与模型评估。
    170
    AI模型测评# PubMedQA# 数据集# 模型评估
    H2O EvalGPT

    H2O EvalGPT

    H2O Eval Studio 是一款用于 GenAI 模型评估的平台,具备集成式执行仪表盘、模型与排行榜对比、可配置评估器等功能,能有效提升模型可靠性与准确性。
    160
    AI模型测评# Eval# GenAI# H2O
    LLMEval3

    LLMEval3

    Chatbot Arena(原 LMSYS)是一个免费的 AI 聊天平台,用户可在此对比和测试各类最佳 AI 聊天机器人,通过与不同机器人互动,直观感受其性能差异。
    200
    AI模型测评# ai# Arena# Chatbot
    LMArena

    LMArena

    Chatbot Arena(原 LMSYS)是一个免费的 AI 聊天平台,用户可在此对比和测试各类最佳 AI 聊天机器人,通过与不同机器人互动,直观感受其性能差异。
    410
    AI模型测评# ai# Arena# Chatbot
    HELM

    HELM

    HELM 是斯坦福大学开发的用于评估基础模型的全面框架,涵盖 142 个模型和 87 个场景,涉及问答、信息检索、总结、情感分析等多方面,提供全面准确的模型评估。
    150
    AI模型测评# HELM# 基础模型评估# 多场景评估
    MMBench

    MMBench

    MMBench 是专注评估视觉语言模型能力的平台,有约 3000 道选择题,覆盖 20 多个细粒度评估维度。采用稳健评估方法和可靠输出提取方法,确保评估准确。由多机构团队贡献。
    220
    AI模型测评# MMBench# 多模态模型评估# 视觉语言模型
    CMMLU

    CMMLU

    CMMLU 是综合性中文评估基准,涵盖 67 个主题,评估语言模型中文知识与推理能力。含排行榜展示模型表现,提供数据集,适用于科研、开发等场景。
    200
    AI模型测评# CMMLU# 中文多任务语言理解评估# 排行榜
    OpenCompass

    OpenCompass

    OpenCompass 司南的大语言模型评测榜单,为你呈现业内大语言模型的权威排名。展示多维度能力评测结果,含整体、语言、知识、推理等维度,助你精准了解模型实力。
    240
    AI模型测评# OpenCompass# 司南# 大语言模型评测榜单
    AGI-Eval

    AGI-Eval

    AGI - Eval 评测社区提供大语言模型和多模态榜单,数据透明权威。有人机评测、公开学术评测集等,还有用户数据贡献机制,与多机构合作,推动 AI 评测发展。
    200
    AI模型测评# ae# AGI# Eval
    SuperCLUE

    SuperCLUE

    SuperCLUE 作为中文通用大模型综合性测评基准,多维度评估模型效果,月度更新榜单。涵盖 OPEN、OPT、琅琊榜三大基准,助力了解中文大模型实力。
    160
    AI模型测评# SuperCLUE# 中文通用大模型测评# 大模型效果评估
    FlagEval

    FlagEval

    探索 FlagEval,专业大模型评测平台。提供多维度、高精度的大模型评估,助您快速甄别模型优劣,把握 AI 发展趋势。
    230
    AI模型测评# ai# FlagEval# 大模型评测
    C-Eval

    C-Eval

    C-Eval 是一个全面的中文基础模型评估套件,包含 13948 个多项选择题,覆盖 52 个学科和四个难度级别,助力大语言模型评估。
    170
    AI模型测评# C-Eval# 中文评估套件# 多学科评估
    Papers with Code

    Papers with Code

    探索 Papers with Code,这是一个将学术论文与代码实现紧密结合的平台。为 AI、机器学习等领域的科研人员和开发者提供丰富资源,助力学术研究与项目开发。
    190
    AI模型测评# ai# code# Papers
    Hugging Face Open LLM Leaderbo

    Hugging Face Open LLM Leaderbo

    Hugging Face Open LLM Leaderboard:全球开源大模型的 “性能晴雨表",全球首个动态开源大模型评测平台,覆盖 200 + 模型、16 + 基准,支持多维度对比与结果复现,助力开发者、企业快速选择适配模型。
    450
    AI指令提示AI模型测评# face# Hugging# Leaderboard
    没有了

    标签云

    AIBOT-HUB |AI应用和工具目录
    AIBOT-HUB | 精选AI工具导航站,覆盖全球AI应用、开发框架与实战资源,专注AI工具实时更新与深度分类,整合AI模型、开源框架、实战教程及开发者社区,一站式解决AI学习与应用需求。 Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

    友链申请 免责声明 广告合作 关于我们

    Copyright © 2025 AIBOT-HUB |AI应用和工具目录 粤ICP备2024342554号-3 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章软件