MMBench MMBench 是由 OpenCompass 提供的多模态大模型评测基准与排行榜平台,面向图像理解、视觉问答、推理等多模态任务,展示不同模型在统一评测集上的性能表现。网站提供模型排名、评测结果和相关指标信息,便于研究人员、开发者和用户了解多模态模型能力差异,跟踪模型评测进展,并为模型选型、学术研究和应用参考提供客观数据支持。 效率助手 # AI基准测试 # OpenCompass
C-Eval C-Eval 是一个面向中文大模型能力评测的综合性基准平台,覆盖人文、社科、理工、医学、法律等多个学科领域。网站提供中文评测榜单与相关数据展示,便于用户了解不同模型在多任务中文考试场景下的表现。C-Eval 适合研究人员、开发者和模型使用者参考,用于比较中文语言模型的知识理解、推理与专业能力表现。 效率助手 # AI评测 # C-Eval
StableVicuna StableVicuna 是可通过 LMSYS Chatbot Arena 平台访问的开源对话式 AI 模型之一,面向自然语言问答、内容生成、对话交流等场景。用户可在网页中体验不同大语言模型的聊天能力,并进行模型对比与交互测试。该站点适合关注开源大模型、AI 聊天机器人、语言模型评测与在线体验的用户参考使用。 对话与写作 # AI聊天 # Chatbot Arena