Technical City Technical City 是一个提供显卡和处理器性能对比的网站,支持查看 GPU、CPU 的技术参数、基准测试成绩和综合性能差异。用户可通过网站对不同型号硬件进行横向比较,了解规格、性能排名、功耗等信息,为电脑硬件选购、升级和配置参考提供数据支持。 在线小工具 # CPU对比 # 基准测试
LLMEval3 LLMEval3 是一个面向大语言模型评测研究的网站,聚焦构建全面、公平、稳健的 LLM 评估框架。项目内容涵盖语言模型评估、基准测试、NLP 与人工智能相关研究,适合关注模型能力评测、评估方法、Benchmark 体系和 AI 研究进展的开发者、研究人员及相关从业者参考。 效率助手 # AI # AI研究
FlagEval FlagEval 是由北京智源人工智能研究院推出的大模型评测平台,面向人工智能模型能力评估与对比分析。网站提供模型榜单、评测任务、趋势数据等信息,覆盖语言理解、推理、代码、知识问答等多个维度,帮助用户了解不同大模型在公开基准和综合能力测试中的表现。平台适合研究人员、开发者及 AI 从业者用于模型选型参考、评测结果查询和行业趋势观察。 效率助手 # AI榜单 # 基准测试
MMLU MMLU(Massive Multitask Language Understanding)是用于评估大语言模型多任务语言理解能力的基准任务,涵盖人文、社会科学、自然科学、工程、数学等多个学科领域。Papers with Code 的 MMLU 页面汇总了该任务的最新论文、模型性能排行、评测指标和相关代码资源,便于研究人员了解模型在知识理解、推理和跨领域任务 对话与写作 # AI评测 # MMLU