OpenCompass OpenCompass 是面向大语言模型与多模态模型的评测榜单平台,提供模型得分、排名及多能力维度评估结果。网站通过客观、中立的评测数据,帮助研究人员、开发者和企业用户了解不同大模型在语言理解、推理、多模态等能力方面的表现,为模型选型、能力对比和技术研究提供参考。 效率助手 # AI基准测试 # 多模态模型
FlagEval FlagEval 是由北京智源人工智能研究院推出的大模型评测平台,面向人工智能模型能力评估与对比分析。网站提供模型榜单、评测任务、趋势数据等信息,覆盖语言理解、推理、代码、知识问答等多个维度,帮助用户了解不同大模型在公开基准和综合能力测试中的表现。平台适合研究人员、开发者及 AI 从业者用于模型选型参考、评测结果查询和行业趋势观察。 效率助手 # AI榜单 # 基准测试