其中既有清华大学的C-Eval、上海交通大学的CMMLU、伯克利的大模型竞技场(Chatbot Arena)等知名学府推出的榜单,也有民间高手自建的MMLU,甚至于做投资的红杉中国也搞出了自己的AI基准测试工具xbench。