HELM HELM(Holistic Evaluation of Language Models)是斯坦福 CRFM 提供的语言模型综合评测平台,用于系统化评估大语言模型在准确性、鲁棒性、公平性、效率、偏见与安全性等维度的表现。网站提供最新评测结果、模型对比、任务指标和方法说明,帮助研究人员、开发者和机构了解不同语言模型的能力边界与应用风险。 效率助手 # AI基准测试 # HELM